java 中的String.intern()

herman 6小时前 16浏览 0评论

相信很多人都没有用过String.intern()这个方法。在学习String.intern()之前,我们先看看上一章的《Java JVM内存(栈、堆、常量池)分配》。 存在于.class文件中的常量池,在运行期被JVM装载,并且可以扩充。...

Java JVM内存(栈、堆、常量池)分配

herman 6小时前 14浏览 0评论

有人说java没有内存泄漏。这其实是不科学的。不是没有内存泄漏,而是你没有遇到而已! 栈、堆、常量池虽同属Java内存分配时操作的区域,但其适用范围和功用却大不相同。 Java内存分配与管理是Java的核心技术之一,今天我们再次深入J...

java synchronized 详解

herman 1周前 (04-18) 230浏览 0评论

synchronized关键字简洁、清晰、语义明确,因此即使有了Lock接口,使用的还是非常广泛。其应用层的语义是可以把任何一个非null对象作为”锁”。 synchronized在软件层面依赖JVM,Lock在硬件层面...

java 多线程 JVM 锁优化

herman 1周前 (04-18) 221浏览 0评论

JVM规范规定JVM基于进入和退出Monitor对象来实现方法同步和代码块同步,但两者的实现细节不一样。代码块同步是使用monitorenter和monitorexit指令实现,而方法同步是使用另外一种方式实现的,细节在JVM规范里并没有详细说明...

Webmagic(爬虫)抓取新浪博客案例

herman 2周前 (04-14) 87浏览 0评论

Webmagic框架更偏重实际的内容抓取。今天为大家分享Webmagic 爬虫框架抓取新浪博客的案例。 我们以作者的新浪博客http://blog.sina.com.cn/flashsword20作为例子。在这个例子里,我们要从最终的博客文...

WebMagic 爬虫框架 注解用法

herman 2周前 (04-13) 104浏览 0评论

自从java注解出来之后,就无框架不注解。同样的 WebMagic 爬虫框架也支持注解的方式实现网页的抓取,今天为大家分享一下 WebMagic 爬虫的注解教程。 @TargetUrl和@HelpUrl HelpUrl/Ta...

Webmagic处理POST、PUT、PATCH等请求

herman 2周前 (04-13) 93浏览 0评论

了解 RESTful 的都知道,POST不是幂等操作,所以理论上每次请求的结果都未必一样,所以原则上是没有办法做“去重”操作的。其次,除了GET请求,其他Method都没有办法自动发现,一般都是手工构建出来的,使用者更应该...

Webmagic 爬虫监控和配置代理

herman 2周前 (04-13) 156浏览 0评论

现在的服务基本上都离不开监控。Webmagic 爬虫框架自带了监控功能,本文将带领大家使用 Webmagic 爬虫的监控功能。 Webmagic 爬虫的监控是0.5.0新增的功能。利用这个功能,可以查看爬虫的执行情况—...

WebMagic Selectable抽取元素

herman 2周前 (04-13) 96浏览 0评论

昨天用的 WebMagic 最新版本,还存在一些问题。导致控制台报错,报错内容为找不到jsoup类文件。详情大家可以到https://github.com/code4craft/webmagic/issues/533查看。 今天我...

WebMagic Xsoup 和 自定义Pipeline

herman 2周前 (04-12) 122浏览 0评论

WebMagic的抽取主要用到了Jsoup和官方自带的工具Xsoup。 Jsoup是一个简单的HTML解析器,同时它支持使用CSS选择器的方式查找元素。关于Jsoup的学习文章,大家可以到这里进行学习!https://github.com/...

Webmagic 爬虫的配置、启动和终止

herman 2周前 (04-12) 108浏览 0评论

通过上一篇的小 demo,我们发现爬取网页内容都是通过实现 PageProcessor 来抓取的。在第一章也介绍到实 PageProcessor 是 Webmagic 4个重要组件之一。PageProcessor 的主要作用是:负责解析页面,抽取...