标签:爬虫

业余杂谈

2020最新Mac系统Python 2.7升级到Python 3.7教程

herman 4年前 (2020-03-13) 2207浏览

众所周知,Python 2.7 这个版本,官方早前已经宣布将在 2020 不在进行维护了。目前 2020 年已经过了好几个月了,还有不少人在使用。 但是,现在很多项目已经是基于 Python 3.X 了,所以在某些时候,可能会出现依赖库的不兼...

业余杂谈

详解 Robots.txt 配置教程

herman 5年前 (2019-06-18) 5130浏览

基本上,所有公开你能访问到的网站都有 Robots.txt。可能只是你没有注意到而已,比如淘宝的:https://www.taobao.com/robots.txt、百度网盘的:https://pan.baidu.com/robots.txt。 ...

IT业界

介绍对象相亲不靠谱,程序员开发渣人识别神器,让你恋爱交友更放心

herman 6年前 (2018-09-23) 2846浏览 0评论

一到放假时间,很多人都不想回家,因为一回家父母就会给你安排相亲,介绍对象。现在给大家推荐一款渣人识别神器,让你有更多理由说服你的父母,同时也能让你找到一个称心如意、可靠终身的另一半。 在介绍这款神器之前,我们先来看看网上的一组数据: ...

NDIS

go语言正则表达式教程

herman 6年前 (2018-06-24) 3037浏览 0评论

正则表达式是一个经常会使用的功能,尤其是爬虫应用中。java 中有对应的选择器,go 语言中,我们也可以自己封装,也可以自己使用正则表达式来匹配相关内容。 在 go 语言中,利用 goquery 和 xpath 第三方库匹配有用信息。这些内...

HTML5

headless-chrome-crawler 教程

herman 6年前 (2018-02-24) 5952浏览 0评论

headless-chrome-crawler 是一个自带 JavaScript 执行环境的爬虫插件。它支持分布式,是一款分布式爬虫。它能解决 AngularJS、vue.js 等这些现代化的前端框架编写的网站的爬虫问题。本文将详细的介绍它的相关...

JAVA

使用HttpsClient抓取https网页内容

herman 7年前 (2017-10-10) 3172浏览 0评论

昨天发生了一件另我非常沮丧的事情。我的个人站点业余草,数据库发生了故障,导致了将近100篇文章的丢失。 本站点主要是一个月备份一次数据库,上个月,也就是9月份的文章目前已全部丢失。 通过我个人对搜索引擎的理解,发现谷歌网页快照中有部分...

JAVA

WebMagic 爬虫框架 注解用法

herman 7年前 (2017-04-13) 5527浏览 0评论

自从java注解出来之后,就无框架不注解。同样的 WebMagic 爬虫框架也支持注解的方式实现网页的抓取,今天为大家分享一下 WebMagic 爬虫的注解教程。 @TargetUrl和@HelpUrl HelpUrl/Ta...

JAVA

Webmagic处理POST、PUT、PATCH等请求

herman 7年前 (2017-04-13) 5782浏览 0评论

了解 RESTful 的都知道,POST不是幂等操作,所以理论上每次请求的结果都未必一样,所以原则上是没有办法做“去重”操作的。其次,除了GET请求,其他Method都没有办法自动发现,一般都是手工构建出来的,使用者更应该...

JAVA

Webmagic 爬虫监控和配置代理

herman 7年前 (2017-04-13) 8982浏览 1评论

现在的服务基本上都离不开监控。Webmagic 爬虫框架自带了监控功能,本文将带领大家使用 Webmagic 爬虫的监控功能。 Webmagic 爬虫的监控是0.5.0新增的功能。利用这个功能,可以查看爬虫的执行情况—...

JAVA

WebMagic Selectable抽取元素

herman 7年前 (2017-04-13) 6406浏览 0评论

昨天用的 WebMagic 最新版本,还存在一些问题。导致控制台报错,报错内容为找不到jsoup类文件。详情大家可以到https://github.com/code4craft/webmagic/issues/533查看。 今天我...

JAVA

WebMagic 简介

herman 7年前 (2017-04-11) 5018浏览 0评论

WebMagic 是一款简单灵活的爬虫框架。目前百度百科上还没有相关的词条,网上使用的人比较多。和 jsoup 相比它更小巧和简单。 本文主要介绍 WebMagic,后面会慢慢的深入,并结合一些实例来学习。如果时间充足我会录制一些...

JAVA

网络爬虫jsoup抓取网页数据使用详解

herman 8年前 (2016-03-31) 6188浏览 0评论

Java程序在解析HTML文档时,我们常常使用jsoup去解析HTML网页内容。但在jsoup之前我们使用HTMLParser去解析(HTMLParser学习地址:http://www.xttblog.com/?p=322),但现在我已经不再使用...

JAVA

爬虫解析网页内容HTMLParser使用详解

herman 8年前 (2016-03-31) 4240浏览 0评论

HTML本质上是XML的子集,但是HTML的语法没有XML那么严格,所以不能用标准的DOM或SAX来解析HTML。这时HTMLParser诞生了。 HTMLParser是一个用来解析HTML文档的开放源码项目,它具有小巧、快速、使用简单的特点以...