WebMagic Xsoup 和 自定义Pipeline
herman 7年前 (2017-04-12) 6031浏览 0评论
WebMagic的抽取主要用到了Jsoup和官方自带的工具Xsoup。 Jsoup是一个简单的HTML解析器,同时它支持使用CSS选择器的方式查找元素。关于Jsoup的学习文章,大家可以到这里进行学习!https://github.com/...
herman 7年前 (2017-04-12) 6031浏览 0评论
WebMagic的抽取主要用到了Jsoup和官方自带的工具Xsoup。 Jsoup是一个简单的HTML解析器,同时它支持使用CSS选择器的方式查找元素。关于Jsoup的学习文章,大家可以到这里进行学习!https://github.com/...
herman 7年前 (2017-04-12) 7483浏览 0评论
通过上一篇的小 demo,我们发现爬取网页内容都是通过实现 PageProcessor 来抓取的。在第一章也介绍到实 PageProcessor 是 Webmagic 4个重要组件之一。PageProcessor 的主要作用是:负责解析页面,抽取...