会员
[=#0000ff]jzffzc 提供的地址:
[=#810081]http://www.qzwb.com.cn/gb/node/2007-04/04/node_1535.htm
[=#810081]
我们今天就来采集这些娱乐新闻。
[=#0000ff]要采集的.JPG (50.22 KB)
2007-4-5 10:37
基本设置:
[=#0000ff]基本设置.JPG (15.86 KB)
2007-4-5 10:37
机器人名称:这个随便写,只要你喜欢。为了便于区分我建议写图片中的名字。
采集总个数:就是要采集文章的总个数,一般不要写太大,100-500之间为推荐。
单次采集个数:如果你的服务器网络状况好,而且要采集的站的网络状况也特别好可以尝试采用5以上,如果网络状况都不好建议1-3之间。
采集页面编码:对方页面的编码。这个是可填可不填的东西,如果你采集出来的文章是乱码,你可以设置适当的编码。
列表页面采集设置:
所谓列表页面就是文章目录页面了。
[=#0000ff]列表页面采集设置.JPG (15.29 KB)
2007-4-5 10:37
索引页面URL地址方式:因为这个页面是固定的,那么我们选择“手工输入”
索引页面URL地址:输入文章目录页面的 URL 。从这个URL上看他是2007年4月4日的,也就是说我们采集到的文章只是这天的,我们的采集器也只能采集到这天的,如果想采集别的日期的,只要修改这个URL地址就OK。
列表区域识别规则:
[=#0000ff]列表识别上.JPG (52.65 KB)
2007-4-5 10:37
从代码中我们可以看到文章目录就是从这里开始的。
我选择“<TD width=5>”为关键字,为什么选他?因为他是离第一篇文章最近,且是唯一的代码。一定要注意这点。
结束关键字就比较宽松了,只要在列表中不含此代码就OK。我选择了“</TBODY></TABLE>”
[=#0000ff]列表识别下.JPG (43.82 KB)
2007-4-5 10:37
完成后既是:
[=#0000ff]列表区域识别.JPG (10.26 KB)
2007-4-5 10:37
文章链接URL识别:
这个比较宽松只要能识别就OK了。
[=#0000ff]文章链接代码.JPG (22.49 KB)
2007-4-5 10:37
现在网上大多数站都是机器生成代码,纯手工静态的页相当少了。为什么?你自己做做就知道了。
上图是这个文章的一个链接块的完整代码。
可以看到他的链接类似于"../../../*********",怎么选择看你的爱好了。像我这么设置是有些好处的,以后修改列表URL就不用动这个了。
我的选择是:
[=#0000ff]URL识别.JPG (10.21 KB)
2007-4-5 10:37
当然也可以是别的。
内容页面采集设置:
开始采集内容页了,打开任意一个文章,看他的代码。
我打开的是第一个文章。香港金像奖宣传照曝光 九星连珠承前启后(附图)
文章标题识别规则:这个我觉得最简单的方法就是用他<title>*</title>了。<title>[subject]</title>
[=#0000ff]文章标题.JPG (7.67 KB)
2007-4-5 10:37
“信息来源识别规则”和“作者识别规则”都是可选的,不填也可以正常采集。不过我建议最好填上,一是尊重原作者,二是版权问题。
文章内容识别规则:一般情况下“”之间的就是。还有很多是他站的代码在程序员写代码的时候为了代码清晰明了他会做标记。今天我们示例的这个就是属于这种情况。他用<!--enpcontent-->做了标记,那么我们很简单的只要用<!--enpcontent-->来标识就行了。
[=#0000ff]文章内容.JPG (9.7 KB)
2007-4-5 10:37
文章内容分页模式:这个如果文章没有分页,那就不用设置了。
内容页面整理设置:这个按照需求整理就行了,一般情况下不用设置。
图片和FLASH我认为应该采集到本地,好多时候原网站会因为各种原因导致你这边显示不出图片,比如:防盗链,URL改变等。
总的来说做这个你要多为机器想想,不要按照人的思维来做,人是活的,机器是死的。
时间太紧,只能写这么多了。
此例子生成的采集器在附件中。
[=#810081]owshine_泉州网-娱乐.txt (2 KB)
[=#810081]owshine_泉州网-娱乐.txt (2 KB)
下载次数: 23
2007-4-5 10:37