标签:爬虫

业余杂谈

详解 Robots.txt 配置教程

herman 3个月前 (06-18) 362浏览

基本上,所有公开你能访问到的网站都有 Robots.txt。可能只是你没有注意到而已,比如淘宝的:https://www.taobao.com/robots.txt、百度网盘的:https://pan.baidu.com/robots.txt。 ...

NDIS

go语言正则表达式教程

herman 1年前 (2018-06-24) 587浏览 0评论

正则表达式是一个经常会使用的功能,尤其是爬虫应用中。java 中有对应的选择器,go 语言中,我们也可以自己封装,也可以自己使用正则表达式来匹配相关内容。 在 go 语言中,利用 goquery 和 xpath 第三方库匹配有用信息。这些内...

HTML5

headless-chrome-crawler 教程

herman 2年前 (2018-02-24) 1520浏览 0评论

headless-chrome-crawler 是一个自带 JavaScript 执行环境的爬虫插件。它支持分布式,是一款分布式爬虫。它能解决 AngularJS、vue.js 等这些现代化的前端框架编写的网站的爬虫问题。本文将详细的介绍它的相关...

JAVA

使用HttpsClient抓取https网页内容

herman 2年前 (2017-10-10) 1048浏览 0评论

昨天发生了一件另我非常沮丧的事情。我的个人站点业余草,数据库发生了故障,导致了将近100篇文章的丢失。 本站点主要是一个月备份一次数据库,上个月,也就是9月份的文章目前已全部丢失。 通过我个人对搜索引擎的理解,发现谷歌网页快照中有部分...

JAVA

WebMagic 爬虫框架 注解用法

herman 2年前 (2017-04-13) 1073浏览 0评论

自从java注解出来之后,就无框架不注解。同样的 WebMagic 爬虫框架也支持注解的方式实现网页的抓取,今天为大家分享一下 WebMagic 爬虫的注解教程。 @TargetUrl和@HelpUrl HelpUrl/Ta...

JAVA

Webmagic处理POST、PUT、PATCH等请求

herman 2年前 (2017-04-13) 2629浏览 0评论

了解 RESTful 的都知道,POST不是幂等操作,所以理论上每次请求的结果都未必一样,所以原则上是没有办法做“去重”操作的。其次,除了GET请求,其他Method都没有办法自动发现,一般都是手工构建出来的,使用者更应该...

JAVA

Webmagic 爬虫监控和配置代理

herman 2年前 (2017-04-13) 5836浏览 1评论

现在的服务基本上都离不开监控。Webmagic 爬虫框架自带了监控功能,本文将带领大家使用 Webmagic 爬虫的监控功能。 Webmagic 爬虫的监控是0.5.0新增的功能。利用这个功能,可以查看爬虫的执行情况—...

JAVA

WebMagic Selectable抽取元素

herman 2年前 (2017-04-13) 2588浏览 0评论

昨天用的 WebMagic 最新版本,还存在一些问题。导致控制台报错,报错内容为找不到jsoup类文件。详情大家可以到https://github.com/code4craft/webmagic/issues/533查看。 今天我...

JAVA

WebMagic 简介

herman 2年前 (2017-04-11) 2101浏览 0评论

WebMagic 是一款简单灵活的爬虫框架。目前百度百科上还没有相关的词条,网上使用的人比较多。和 jsoup 相比它更小巧和简单。 本文主要介绍 WebMagic,后面会慢慢的深入,并结合一些实例来学习。如果时间充足我会录制一些...

JAVA

网络爬虫jsoup抓取网页数据使用详解

herman 4年前 (2016-03-31) 3035浏览 0评论

Java程序在解析HTML文档时,我们常常使用jsoup去解析HTML网页内容。但在jsoup之前我们使用HTMLParser去解析(HTMLParser学习地址:http://www.xttblog.com/?p=322),但现在我已经不再使用...

JAVA

爬虫解析网页内容HTMLParser使用详解

herman 4年前 (2016-03-31) 1883浏览 0评论

HTML本质上是XML的子集,但是HTML的语法没有XML那么严格,所以不能用标准的DOM或SAX来解析HTML。这时HTMLParser诞生了。 HTMLParser是一个用来解析HTML文档的开放源码项目,它具有小巧、快速、使用简单的特点以...