2017年04月12日的内容

JAVA

WebMagic Xsoup 和 自定义Pipeline

herman 7年前 (2017-04-12) 6031浏览 0评论

WebMagic的抽取主要用到了Jsoup和官方自带的工具Xsoup。 Jsoup是一个简单的HTML解析器,同时它支持使用CSS选择器的方式查找元素。关于Jsoup的学习文章,大家可以到这里进行学习!https://github.com/...

JAVA

Webmagic 爬虫的配置、启动和终止

herman 7年前 (2017-04-12) 7483浏览 0评论

通过上一篇的小 demo,我们发现爬取网页内容都是通过实现 PageProcessor 来抓取的。在第一章也介绍到实 PageProcessor 是 Webmagic 4个重要组件之一。PageProcessor 的主要作用是:负责解析页面,抽取...