打印

[程序教程] 制作SupeSite采集器

制作SupeSite采集器

首先简单说一下制作采集器的基本原理和思路:
  1、确定您要采集哪个页面的新闻,将这些页面的地址填入到“索引页面url地址(图4和5)”;
  2、确定在这些页面您要采集的内容区域,因为不是一个网页所有的内容都要采集回来,而是采集一个网页的一部分内容,所以您必须告诉程序您要采集的区域,也就是“列表区域识别规则”;(图4和5)
  3、第2步确定区域之后,还要告诉程序您要采集的文章链接,也就是“文章链接url识别规则”。(图4和5)
  4、现在已经确定了大的采集框架,接下来要告诉程序在一个文章页面,文章的标题,文章的来源和作者分别是什么。然后就是一篇文章内容的范围,也就是说一个文章页面内,真正您需要采集的范围,就是“文章内容识别规则”。最后设置分页的区域和分页的链接地址。(图6)。
  5、以上4个步骤已经确定了采集的范围,如果您需要过滤标题和内容,请根据您的要求设置“内容页面整理设置”。
  以上几个步骤确定范围都是通过查看页面源码,进行设置的,截取的方法需要一些经验,练习2--3次就可以领悟到了。
  接下来介绍采集器的基本原理和步骤:
  第一:打开后台的采集器,点击“添加新机器人”。(图1)

  第二:填写基本设置:(图2)

  这里需要特别指出的有两个地方:单次采集个数和采集页面编码。单次采集个数尽量设置较小的数字,以免超时。采集页面编码是您采 集网页的编码,并不是您站点的编码。这里切记!!
  查看采集页面编码的方法:点击网页头部的“查看”,然后点击“源文件”,然后找到类似“” ,charset后面的就是这里需要填写的“采集页面编码”。(图3)

  第三:列表页面采集设置:(图4)和(图5)

  这里设置的是采集页面的url地址,采集内容的区域范围,采集文章标题的url地址。
  采集页面的url地址有两种设置方法:手动输入(图4)和自动增长(图5)。手动输入需要您自己将所需采集的地址逐行输入。自动增长 只需填入采集页面的地址和页面页码。详见图5。用[page]代替分页变量。
  采集内容的范围用
    代替,采集文章的标题用代替。
    第四:内容页面采集设置:(图6)

    [url=http://homepage.yesky.com/syscore/230/427230d_5.shtml]

      这里需要设置的采集规则有:文章标题,文章来源(选填),文章作者(选填),文章内容,分页设置(选填)。
      文章标题用[subject]代替,文章来源用[from]代替,文章作者用[author]代替,文章内容用[message]代替,分页区域用[pagearea]代 替,分页链接用[page]代替。
      之后的过滤设置可以根据您的需要和采集页面的具体情况进行填写。

      设置完毕之后点击提交,然后点击“开始采集”(图7),图8是采集的过程,采集完毕之后点击“查看结果”(图9),如果您的采集规 则正确,可以得到图10的页面,最后将采集的内容导入资讯。这里说明一点:采集的内容只能够导入资讯这个频道。

SupeSite采集第一课--实例采集

会员 [=#0000ff]jzffzc  提供的地址:[=#810081]http://www.qzwb.com.cn/gb/node/2007-04/04/node_1535.htm
[=#810081]
我们今天就来采集这些娱乐新闻。


[=#0000ff]要采集的.JPG (50.22 KB)
2007-4-5 10:37




基本设置:


[=#0000ff]基本设置.JPG (15.86 KB)
2007-4-5 10:37


机器人名称:这个随便写,只要你喜欢。为了便于区分我建议写图片中的名字。

采集总个数:就是要采集文章的总个数,一般不要写太大,100-500之间为推荐。

单次采集个数:如果你的服务器网络状况好,而且要采集的站的网络状况也特别好可以尝试采用5以上,如果网络状况都不好建议1-3之间。

采集页面编码:对方页面的编码。这个是可填可不填的东西,如果你采集出来的文章是乱码,你可以设置适当的编码。

列表页面采集设置:

所谓列表页面就是文章目录页面了。


[=#0000ff]列表页面采集设置.JPG (15.29 KB)
2007-4-5 10:37



索引页面URL地址方式:因为这个页面是固定的,那么我们选择“手工输入”

索引页面URL地址:输入文章目录页面的 URL 。从这个URL上看他是2007年4月4日的,也就是说我们采集到的文章只是这天的,我们的采集器也只能采集到这天的,如果想采集别的日期的,只要修改这个URL地址就OK。

列表区域识别规则:


[=#0000ff]列表识别上.JPG (52.65 KB)
2007-4-5 10:37



从代码中我们可以看到文章目录就是从这里开始的。
我选择“<TD width=5>”为关键字,为什么选他?因为他是离第一篇文章最近,且是唯一的代码。一定要注意这点。

结束关键字就比较宽松了,只要在列表中不含此代码就OK。我选择了“</TBODY></TABLE>”


[=#0000ff]列表识别下.JPG (43.82 KB)
2007-4-5 10:37




完成后既是:


[=#0000ff]列表区域识别.JPG (10.26 KB)
2007-4-5 10:37


文章链接URL识别:

这个比较宽松只要能识别就OK了。


[=#0000ff]文章链接代码.JPG (22.49 KB)
2007-4-5 10:37



现在网上大多数站都是机器生成代码,纯手工静态的页相当少了。为什么?你自己做做就知道了。

上图是这个文章的一个链接块的完整代码。

可以看到他的链接类似于"../../../*********",怎么选择看你的爱好了。像我这么设置是有些好处的,以后修改列表URL就不用动这个了。

我的选择是:


[=#0000ff]URL识别.JPG (10.21 KB)
2007-4-5 10:37



当然也可以是别的。



内容页面采集设置:

开始采集内容页了,打开任意一个文章,看他的代码。

我打开的是第一个文章。香港金像奖宣传照曝光 九星连珠承前启后(附图)

文章标题识别规则:这个我觉得最简单的方法就是用他<title>*</title>了。<title>[subject]</title>


[=#0000ff]文章标题.JPG (7.67 KB)
2007-4-5 10:37



“信息来源识别规则”和“作者识别规则”都是可选的,不填也可以正常采集。不过我建议最好填上,一是尊重原作者,二是版权问题。

文章内容识别规则:一般情况下“”之间的就是。还有很多是他站的代码在程序员写代码的时候为了代码清晰明了他会做标记。今天我们示例的这个就是属于这种情况。他用<!--enpcontent-->做了标记,那么我们很简单的只要用<!--enpcontent-->来标识就行了。


[=#0000ff]文章内容.JPG (9.7 KB)
2007-4-5 10:37



文章内容分页模式:这个如果文章没有分页,那就不用设置了。

内容页面整理设置:这个按照需求整理就行了,一般情况下不用设置。

图片和FLASH我认为应该采集到本地,好多时候原网站会因为各种原因导致你这边显示不出图片,比如:防盗链,URL改变等。


总的来说做这个你要多为机器想想,不要按照人的思维来做,人是活的,机器是死的。

时间太紧,只能写这么多了。

此例子生成的采集器在附件中。

[=#810081]owshine_泉州网-娱乐.txt (2 KB)
[=#810081]owshine_泉州网-娱乐.txt (2 KB)
下载次数: 23
2007-4-5 10:37
这个是怎么导入数据的,也就是说,是不是任何网站系统都可以导入采集到的数据?
返回顶部
CNzhanzhang.com

Processed in 0.025147 second(s), 7 queries, Gzip enabled.

当前时区 GMT+8, 现在时间是 2008-11-21 07:34 豫ICP备08002104号

清除 Cookies - 联系我们 - 中国站长论坛 - Archiver - WAP - 界面风格