2017年08月22日的内容

业余杂谈

CSDN 将上线打赏功能

herman 7年前 (2017-08-22) 2761浏览 0评论

近日 CSDN 博客迎来了大改版,一些选择大白(据说设计人姓白)皮肤和科技星空皮肤目前已经换成了最新的博客界面了。而其他的皮肤,后面也会陆续的改版。 CSDN 目前是全球最大中文IT社区,服务好几千万的编程人员。这一改版,目前影响的人还比较...

JAVA

解剖 Lucene 的总体架构

herman 7年前 (2017-08-22) 2799浏览 0评论

Lucene 使用起来很简单,但是要搞懂它内部的一些算法就很难了。本文将从 Lucene 的架构图来介绍 Lucene 的特点和常用包。 Lucene总的来说是: 一个高效的,可扩展的,全文检索库。 全部用Java实现,...

JAVA

Lucene 中文词汇分词(Word Segment)问题总结

herman 7年前 (2017-08-22) 2461浏览 0评论

对于中文来说,全文索引首先还要解决一个语言分析的问题,对于英文来说,语句中单词之间是天然通过空格分开的,但亚洲语言的中日韩文语句中的字是一个字挨一个,所有,首先要把语句中按“词”进行索引的话,这个词如何切分出来就是一个很大...

JAVA

Lucene 全文检索不等于like “%keyword%”

herman 7年前 (2017-08-22) 3964浏览 0评论

很多人还是停留在会写代码的行列,例如做一个搜索功能,往往使用 SQL 中的 like 语句来解决,然而 like 语句在大数据的情况下,产生的超大影响将可能使你的整个数据库出现高 IO,CPU 久高不下的情况。那么这样的设计能用吗?答案当然是不可...

JAVA

详解 Lucene 对 Term的权重(Term weight) 计算

herman 7年前 (2017-08-22) 5342浏览 0评论

不管你是用百度还是谷歌,都有一套权重算法。以百度为例,权重越高,搜索出来的结果排名就越靠前。同理 Lucene 的对搜索结果是如何排序的呢?答案是对搜索词的权重(Term weight)计算。本文将介绍一下 Lucene 的权重(PR)计算方式。...

JAVA

Lucene 如何对索引进行搜索?

herman 7年前 (2017-08-22) 1949浏览 0评论

对文档建立好索引后,就可以在这些索引上面进行搜索了。搜索引擎首先会对搜索的关键词进行解析,然后再在建立好的索引上面进行查找,最终返回和用户输入的关键词相关联的文档。 到这里似乎我们可以宣布“我们找到想要的文档了&rdqu...

JAVA

lucene 创建索引步骤

herman 7年前 (2017-08-22) 2021浏览 0评论

索引是现代搜索引擎的核心,建立索引的过程就是把源数据处理成非常方便查询的索引文件的过程。为什么索引这么重要呢,试想你现在要在大量的文档中搜索含有某个关键词的文档,那么如果不建立索引的话你就需要把这些文档顺序的读入内存,然后检查这个文章中是不是含有...

JAVA

Lucene的索引(Index)里面究竟存些什么?

herman 7年前 (2017-08-22) 2622浏览 0评论

前面的一篇文章中,我们学习了 Lucene 的原理和实现机制。并从中了解到 Lucene 提供的全文检索主要用到了,索引的创建和索引的检索。但是 Lucene 中的索引到底存储的是什么呢?为什么它能这么快呢?本文将为你揭开 Lucene 索引的神...

JAVA

Lucene 原理和实现机制

herman 7年前 (2017-08-22) 4837浏览 0评论

还有不了解 Lucene 的,可以先看我前面一篇关于 Lucene 简介的文章《Apache Lucene 简介》。本文将详细的介绍 Lucene 的原理和实现机制,以及 Lucene 和数据库的对比。 目前已经有很多应用程序的搜索功能是基...

JAVA

Apache Lucene 简介

herman 7年前 (2017-08-22) 3203浏览 0评论

目前越来越多的项目加入 Apache Lucene 框架,以实现全文检索的功能。本文将主要介绍Lucene 是什么?Lucene的作者简介,Lucene的发展历程,以及使用Lucene比较著名的项目。 Lucene 是什么...