java 多线程 JVM 锁优化

herman 1个月前 (04-18) 382浏览 0评论

JVM规范规定JVM基于进入和退出Monitor对象来实现方法同步和代码块同步,但两者的实现细节不一样。代码块同步是使用monitorenter和monitorexit指令实现,而方法同步是使用另外一种方式实现的,细节在JVM规范里并没有详细说明...

Webmagic(爬虫)抓取新浪博客案例

herman 1个月前 (04-14) 148浏览 0评论

Webmagic框架更偏重实际的内容抓取。今天为大家分享Webmagic 爬虫框架抓取新浪博客的案例。 我们以作者的新浪博客http://blog.sina.com.cn/flashsword20作为例子。在这个例子里,我们要从最终的博客文...

WebMagic 爬虫框架 注解用法

herman 1个月前 (04-13) 149浏览 0评论

自从java注解出来之后,就无框架不注解。同样的 WebMagic 爬虫框架也支持注解的方式实现网页的抓取,今天为大家分享一下 WebMagic 爬虫的注解教程。 @TargetUrl和@HelpUrl HelpUrl/Ta...

Webmagic处理POST、PUT、PATCH等请求

herman 1个月前 (04-13) 132浏览 0评论

了解 RESTful 的都知道,POST不是幂等操作,所以理论上每次请求的结果都未必一样,所以原则上是没有办法做“去重”操作的。其次,除了GET请求,其他Method都没有办法自动发现,一般都是手工构建出来的,使用者更应该...

Webmagic 爬虫监控和配置代理

herman 1个月前 (04-13) 224浏览 0评论

现在的服务基本上都离不开监控。Webmagic 爬虫框架自带了监控功能,本文将带领大家使用 Webmagic 爬虫的监控功能。 Webmagic 爬虫的监控是0.5.0新增的功能。利用这个功能,可以查看爬虫的执行情况—...

WebMagic Selectable抽取元素

herman 1个月前 (04-13) 133浏览 0评论

昨天用的 WebMagic 最新版本,还存在一些问题。导致控制台报错,报错内容为找不到jsoup类文件。详情大家可以到https://github.com/code4craft/webmagic/issues/533查看。 今天我...

WebMagic Xsoup 和 自定义Pipeline

herman 1个月前 (04-12) 212浏览 0评论

WebMagic的抽取主要用到了Jsoup和官方自带的工具Xsoup。 Jsoup是一个简单的HTML解析器,同时它支持使用CSS选择器的方式查找元素。关于Jsoup的学习文章,大家可以到这里进行学习!https://github.com/...

Webmagic 爬虫的配置、启动和终止

herman 1个月前 (04-12) 212浏览 0评论

通过上一篇的小 demo,我们发现爬取网页内容都是通过实现 PageProcessor 来抓取的。在第一章也介绍到实 PageProcessor 是 Webmagic 4个重要组件之一。PageProcessor 的主要作用是:负责解析页面,抽取...

WebMagic 入门

herman 1个月前 (04-11) 252浏览 0评论

这是接着上一章 WebMagic 简介,我们来搭建第一个 WebMagic 爬虫项目。 WebMagic 主要包含两个jar包:webmagic-core-{version}.jar和webmagic-extension...

WebMagic 简介

herman 1个月前 (04-11) 274浏览 0评论

WebMagic 是一款简单灵活的爬虫框架。目前百度百科上还没有相关的词条,网上使用的人比较多。和 jsoup 相比它更小巧和简单。 本文主要介绍 WebMagic,后面会慢慢的深入,并结合一些实例来学习。如果时间充足我会录制一些...

Shiro 教程

herman 2个月前 (04-05) 743浏览 0评论

经过2个多星期的努力,Shiro教程系列文章终于完结了,这里分享一下这个教程目录。 我的另外一个个人网站:CODE大全,就用到了Shiro框架。地址:www.codedq.net 水平权限漏洞原理、修复以及检测方法 安全开源权限...

Shiro 动态URL权限管理

herman 2个月前 (04-05) 369浏览 0评论

这是Shiro 教程的最有一篇文章了,本文将重点学习在实际项目中的动态URL权限管理功能。 用过Spring Security的朋友应该比较熟悉对URL进行全局的权限控制,即访问URL时进行权限匹配;如果没有权限直接跳到相应的错误页面。Sh...