2017年04月的内容

业余杂谈

搜索引擎 site 命令 使用详解

herman 7年前 (2017-04-16) 11765浏览 0评论

一名专业的SEO人员除了在搜索引擎搜索普通的关键词外,还需要使用一些特殊的高级搜索指令来查询我们需要是网站数据,今天为大家介绍一下 搜索引擎常用的高级搜索命令,包括 site命令、双引号、减号、星号、inurl、inanchor、int...

HTML5

图片上传编辑插件SWFUpload使用详解

herman 7年前 (2017-04-14) 4068浏览 0评论

在这个互联网泛滥的年代,任何需要用户注册的网站都慢慢的开始搞起实名认证。实名认证就离不开图片上传的功能。有些网站需要对要上传的图片进行编辑后在上传。本文将使用SWFUpload插件来解决你的诉求。 插件效果预览图 SW...

业余杂谈

伪代码的写法和规则

herman 7年前 (2017-04-14) 9403浏览 0评论

今天又网友在论坛里http://bbs.csdn.net/topics/392153590问到伪代码如何编写的问题。我这里查询了一些资料,整理如下。 在伪代码中,每一条指令占一行(else if 例外),指令后不跟任何符号  书...

业余杂谈

互联网协议OSI七层参考模型详解(二)

herman 7年前 (2017-04-14) 2797浏览 0评论

长城宽带的网络实在是差距,这篇文章发布是断网了,导致重新编写了。 接上一篇互联网协议OSI七层参考模型详解(一),我们继续学习OSI七层参考模型的下半部分。 IP数据包 根据IP协议发送的数据,就叫做IP数据包。不难想象,其中必...

业余杂谈

互联网协议OSI七层参考模型详解(一)

herman 7年前 (2017-04-14) 3404浏览 0评论

我们每天使用互联网,但多数人是不知道它是如何实现的? 全世界几十亿台电脑,连接在一起,互相通信。上海的某一块网卡送出信号,洛杉矶的另一块网卡居然就收到了,两者实际上根本不知道对方的物理位置,你不觉得这是很神奇的事情吗? 互联网的核心是...

HTML5

web评论框支持emoji(表情符号)

herman 7年前 (2017-04-14) 6623浏览 0评论

Emoji 是可以插入文字的图形符号。它是一个日语词,e表示"絵",moji表示"文字"。连在一起,就是"絵文字"。Emoji 在上个世纪90年代,由日本电信商引入服务,最早用于在短消息...

JAVA

Webmagic(爬虫)抓取新浪博客案例

herman 7年前 (2017-04-14) 4046浏览 1评论

Webmagic框架更偏重实际的内容抓取。今天为大家分享Webmagic 爬虫框架抓取新浪博客的案例。 我们以作者的新浪博客http://blog.sina.com.cn/flashsword20作为例子。在这个例子里,我们要从最终的博客文...

JAVA

WebMagic 爬虫框架 注解用法

herman 7年前 (2017-04-13) 5543浏览 0评论

自从java注解出来之后,就无框架不注解。同样的 WebMagic 爬虫框架也支持注解的方式实现网页的抓取,今天为大家分享一下 WebMagic 爬虫的注解教程。 @TargetUrl和@HelpUrl HelpUrl/Ta...

JAVA

Webmagic处理POST、PUT、PATCH等请求

herman 7年前 (2017-04-13) 5795浏览 0评论

了解 RESTful 的都知道,POST不是幂等操作,所以理论上每次请求的结果都未必一样,所以原则上是没有办法做“去重”操作的。其次,除了GET请求,其他Method都没有办法自动发现,一般都是手工构建出来的,使用者更应该...

JAVA

Webmagic 爬虫监控和配置代理

herman 7年前 (2017-04-13) 8994浏览 1评论

现在的服务基本上都离不开监控。Webmagic 爬虫框架自带了监控功能,本文将带领大家使用 Webmagic 爬虫的监控功能。 Webmagic 爬虫的监控是0.5.0新增的功能。利用这个功能,可以查看爬虫的执行情况—...

JAVA

WebMagic Selectable抽取元素

herman 7年前 (2017-04-13) 6415浏览 0评论

昨天用的 WebMagic 最新版本,还存在一些问题。导致控制台报错,报错内容为找不到jsoup类文件。详情大家可以到https://github.com/code4craft/webmagic/issues/533查看。 今天我...

JAVA

WebMagic Xsoup 和 自定义Pipeline

herman 7年前 (2017-04-12) 6057浏览 0评论

WebMagic的抽取主要用到了Jsoup和官方自带的工具Xsoup。 Jsoup是一个简单的HTML解析器,同时它支持使用CSS选择器的方式查找元素。关于Jsoup的学习文章,大家可以到这里进行学习!https://github.com/...

JAVA

Webmagic 爬虫的配置、启动和终止

herman 7年前 (2017-04-12) 7522浏览 0评论

通过上一篇的小 demo,我们发现爬取网页内容都是通过实现 PageProcessor 来抓取的。在第一章也介绍到实 PageProcessor 是 Webmagic 4个重要组件之一。PageProcessor 的主要作用是:负责解析页面,抽取...