Java基础、中级、高级、架构面试资料

Lucene 实战教程第一章 Lucene 简介

JAVA herman 2443浏览
公告:“业余草”微信公众号提供免费CSDN下载服务(只下Java资源),关注业余草微信公众号,添加作者微信:xttblog2,发送下载链接帮助你免费下载!
本博客日IP超过2000,PV 3000 左右,急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包,请加博主新的微信号:xttblog2,之前的微信号好友位已满,备注:返现
受密码保护的文章请关注“业余草”公众号,回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽,请关注文末小程序
视频教程免费领
腾讯云】1核2G5M轻量应用服务器50元首年,高性价比,助您轻松上云

Lucene 近年来越来越火,电商项目基本上都有使用。最近我在优化一些公司内部的系统,其中在搜索模块,我打算使用 Lucene 取代原来的基于 SQL 形式的搜索。本文算是 Lucene中文教程的第一章,认识 Lucene,和它的一些核心类介绍。

在开始之前,我在百度上搜索了 Lucene,发现下面的这些关键词比较火:

ucene和solr的区别    、Lucene面试题、elasticsearch、Lucene netcore、Lucene怎么读、Lucene搜索、Lucene的名字、Lucene Spark、Lucene 原文档。

在谷歌上搜索 Lucene,发现下面这些关键词比较火:

lucene介绍、lucene github、lucene使用、lucene tutorial、lucene教程、lucene elasticsearch、lucene document、lucene solr、lucene中文教程、lucene jar。

经统计后,发现网上还是缺少一些 Lucene 方面的教程资料。而且 Lucene 方面的搜索指数在逐渐增高,因此我想对 Lucene 写一个教程集合,方便大家学习!

相信大多数公司的数据库都需要采用分库分表等一些策略,而对于某些特定的业务需求,分别从不同的库不同的表中去检索特定的数据显得比较繁琐,而Lucene正好可以解决某些特殊需求,对于不同库不同表中的数据先建立全量索引,然后将需要检索的数据写入某个单独的表中,供其它业务需求方查询,以后的每天只需要做增量索引并写入数据表即可。

Lucene是一个高效的,基于Java的全文检索库,生活中数据主要分为两种:结构化数据和非结构化数据。一般使用的XML、JSON、数据库等都是结构化数据,非结构化数据也叫全文数据,而这种全文数据正是Lucene的用武之地。全文检索主要有两个过程,索引创建(Indexing)和搜索索引(Search)。

Lucene 的特点有很多,我从网上找了下面几个方便大家认识:

  • 在现代的硬件上一小时可以索引150GB的数据
  • 索引20GB的文本文件,产生的索引文件大概是4-6GB
  • 只需要1MB的堆内存
  • 可定制的排序模型
  • 支持多种查询类型
  • 通过特定的字段搜索
  • 通过特定的字段排序
  • 近实时的索引和搜索
  • Faceting,Grouping,Highlighting,Suggestions等

基于 Lucene 的搜索技术,产生了两个大家非常熟悉的流行框架:Apache Solr 和 Elastic search。以及一些其他语言对 Lucene 的实现。

各种语言实现的 Lucene 框架

Lucene 搜索技术,最重要的部分就是索引。可以说所有的搜索技术都是基于索引的,包括数据库索引。

Lucene 的索引一般是创建并存储在文件系统之上。可以是本地,也可以是远程数据库等。Lucene 在文件系统中存储索引的最基本的抽象实现类是 BaseDirectory,该类继承自 Directory,BaseDirectory 有两个主要的实现类:

  • FSDirectory:在文件系统上存储索引文件,有六个子类,如下是三个常用的子类:SimpleFSDirectory、NIOFSDirectory、MMapDirectory。
  • RAMDirectory:在内存中暂存索引文件,只对小索引好,大索引会出现频繁GC。

Lucene 里面的索引核心类

  • IndexWriter:负责创建索引或打开已有索引
  • IndexWriterConfig:持有创建IndexWriter的所有配置项
  • Directory:描述了Lucene索引的存放位置,它的子类负责具体指定索引的存储路径
  • Analyzer:负责文本分析,从被索引文本文件中提取出语汇单元。对于文本分析器Analyzer,需要注意一点,就是使用哪种Analyzer进行索引创建,查询的时候也要使用哪种Analyzer查询,否则查询结果不正确。
  • Document:代表一些域(Field)的集合,你可以将Document对象理解为虚拟文档-例如Web页面、E-mail信息或者文本文件
  • Field:索引中的每个文档都包含一个或多个不同命名的域,每个域都有一个域名和对应的域值
  • FieldType:描述了Field的各种属性,在不使用某种具体的Field类型(例如StringField,TextField)时需要用到此类

Lucene 的使用场景

  • 搜索引擎。例如:百度、必应、谷歌等。
  • 站内搜索,比如,我个人网站的站内搜索。
  • 文件系统的搜索,例如,window 系统中的搜索等。
  • 商品搜索,电商系统的商品搜索。
  • 大型系统的分库分表搜索
  • 一些软件的内部搜索,例如 Eclipse 中的搜索等。

Lucene 全文检索的流程

Lucene 全文检索的流程

通过本文,希望大家对 Lucene 有一个大概的认识,后面我们继续深入学习 Lucene。

业余草公众号

最后,欢迎关注我的个人微信公众号:业余草(yyucao)!可加作者微信号:xttblog2。备注:“1”,添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注!后续有精彩内容会第一时间发给您!原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系!

本文原文出处:业余草: » Lucene 实战教程第一章 Lucene 简介