去看你博客今天给大家推荐一款免费的WordPress自动采集插件:WP-CTspider,这款插件全自动采集几乎可采集任何网站,设置轻而易举,只需要设置定向采集网址,通过CSS选择器精准识别采集区域,包括(内容,摘要,TAG,缩略图,自定义字段等…)然后自动检测抓取网页内容,文章去重,更新发布,这个过程全自动完成,无需人工干预。
WP-CTspider支持WordPress全功能,完美支持WordPress各种功能、标签,摘要,特色图片,自定义栏目等。定时自动采集,只需要设置好每个任务,要多久执行一次任务,便可以定时执行采集任务。支持各种语言伪原创,支持百度翻译引擎(完全免费),共支持29种语言相互翻译,轻松获取原创文章,SEO,支持SEO全功能优化,支持内容过滤,甚至可以在文章任意位置添加上自定义内容,也可以自定义文章样式。附件下载,支持多种格式附件下载,包括自定义采集缩略图,并且可以选择图片添加水印。
其他采集教程
[neilian ids=2723]
下面介绍一下WP-CTspider超详细使用教程!
使用教程
新建项目 / 基本配置
接下来我们详细说下如何采集一个项目
我们使用新浪科技为示例:
首先基本配置:
- 任务名称:新浪科技(PS:自定义即可)
- 更新时间:默认60分钟(PS:当前任务60分钟自动执行一次)
- 字符集:默认选项就可以(PS:如果出现乱码情况,请针对当前web网页字符集选择即可)
- 随机IP:开启(PS:开启随机IP会在每次采集的时候自动更换IP,减少服务器IP被封的几率)
- 多线程采集:开启 (PS:开启后可提高采集速度)
- 多线程数量:默认10(PS:根据自己服务器配置酌情使用)
列表设置
- 列表URL: http://roll.tech.sina.com.cn/internet_all/index.shtml (PS:如需多个,可换行添加)
- 列表区域选择器:
.contList>ul>li
(PS:【完全和CSS选择器用法一样
】【可填,可不填
】如果采集当前页面有多个相同列表DOM节点就要填写,确保采集精准度)用谷歌浏览器右键审查元素,可以看出当前列表数据都在.contList>ul>li
下面
- 列表缩略图:如果有图可以直接填写当前缩略图CSS选择器
- 文章网址匹配:
a
(PS:由于上面区域选择器已经定位,我们可以直接填入a标签
即可,如果区域选择器没有定位则设置:.contList li a
或者.contList a
具体根据你采集页面dom结构自己分析) - 添加来源网址到自定义字段:
source_url
(PS:【自定义】可开启或不开启,设置后会在每天文章添加一个自定义字段source_url
并且会把当前采集到网址链接赋值给该字段用于前台调用显示)如:get_post_meta('source_url')
可调用该字段的值。
点击列表测试可以查看当前项目列表配置情况
文章设置
标题匹配规则:h1
文章内容设置:#article_content
可以看到标题在h1
标签下,也可使用.main-title
来获取标题
正文内容看上去有好多 class和id
如果有id属性尽量采用id,毕竟id是唯一性,定位精准。
我们还可以增加规则来采集TAG标签
长腿蜘蛛-CTspider 提供了6总规则添加采集,并且可以自定义字段规则(PS:自定义字段规则可以添加多个)
点击采集测试
采集结果完美呈现(原文:标题:TAG)正确显示
但是我们发现结果中出现了a链接
和一些多于的css属性
和id属性
还有span标签
我们可以利用长腿蜘蛛-CTspider
强大的内容过滤
模块进行数据清洗工作
内容过滤
- 首先删除数据中所有
a链接
但不删除a标签内容 - 删除数据中
span标签
并且也不删除内容 - 删除数据中无用的
class
属性和id
属性
具体设置如下图:
最后在进行采集测试(得到纯净的数据)
点击采集后显示没有任何数据只有两种可能
- 采集规则没有设置好。
- 如果确定采集规则没问题,请查看当前采集的网址是否是Ajax动态渲染加载(PS:目前长腿蜘蛛-CTspider
不支持动态渲染加载采集
)
如何授权
登录长腿蜘蛛-CTspider官网注册账号(PS:注册账号需要邮箱验证激活码,请认真填写邮箱账号)。
- 点击用户中心->添加授权域名(PS:目前每位用户可以授权3个域名)。
- 得到授权码后,点击CTspider插件->系统配置->授权码配置->填入授权码->保存配置->验证授权
下载信息
下载插件 官方网站总结
这款WP-CTspider自动采集插件使用教程还是非常详细的,可以说是傻瓜式教学,并且最重要的是它使用起来完全是免费的,有需要的不妨试试,但是现在搜索引擎对采集站打击力度也很大,做网站最好要有自己的原创内容。
去看你博客原创文章,作者:去看你博客,如若转载,请注明出处:https://www.7kanni.cn/1421.html
评论列表(11条)
这个能不能采集图片到本地?
@卡卡哥:需要自己转换到本地。
@去看你博客:好的,谢谢。能问下你的评论自动邮件回复是插件吗?
@卡卡哥:对的,WP Mail SMTP。
@卡卡哥:站内搜索邮件提醒,里面有插件和教程!
能采集附件吗?
@猫叔:附件应该就是一个超链接地址,应该要自己转换为自己的网址。
我前几天还在找这种插件,我现在用的是火车头V9
@自然:火车头V9是软件吧,这款是插件可以直接在wordpress站点上运行的。
@去看你博客:是的,之前没找到合适的插件就用软件
@自然:我感觉这款插件功能还是比较强大的,采集只需要设置好标签,伪原创功能也有,最重要的还是免费 :razz: