死了算了
管理成员
- UID
- 1
- 注册
- 2017/07/28
- 消息
- 1,721
- 解决方案
- 130
- 黄金
- 214,912G
以 https://it.ithome.com 为例
1、采集过滤

1、上图中的选项根据自己意愿添加

2、采集地址即你需要采集的文章列表页url 这里以 https://it.ithome.com,分页采集地址(功能不全暂时可填可不填)

如图上所画:
蓝框区域就是我们本页面需要采集文章对应的数据区块
3、下面来采集详情页,首先分析页面

未完待续......
1、采集过滤
必填配置介绍 | 描述 |
采集地址 | 采集地址 |
采集范围 | 采集范围的选择,决定列表采集是否成功 |
采集规则 | Jquery一般填a 属性href 注意:如果在采集范围中已经定位到a标签这里可以留空 |
详情页采集区域 | 包含住你想要的数据块即可 |
详情页采集规则 | Title Content 两个字段为必填项 两个字段必须都获取到数据才能采集成功 |

1、上图中的选项根据自己意愿添加

2、采集地址即你需要采集的文章列表页url 这里以 https://it.ithome.com,分页采集地址(功能不全暂时可填可不填)
- 采集范围

如图上所画:
蓝框区域就是我们本页面需要采集文章对应的数据区块
代码:
列表采集范围为 .bl li h2
解释:
我们使用规则 .bl定位到 li h2的外侧
再使用.bl li h2 可以定位到每一个h2,这样就达到循环采集目的
范围选择错误可能只获取到一个数据
列表采集规则
link字段 Jquery选择器 = a 属性 = href
解释:
a 是选择a标签意思
3、下面来采集详情页,首先分析页面

代码:
详情采集范围为 .content
解释:
它包括了我们想要的 标题数据/内容数据
详情采集规则
title字段 Jquery选择器 = h1 属性 = text // 文本的意思
content字段 Jquery选择器 = .post_content 属性 = html // 顾名思义 内容没有html标签后期处理不成bbCode成文格式不好看
未完待续......