Lucene 实战教程第一章 Lucene 简介

公告：“业余草”微信公众号 AI 中转站提供免费体验，点击链接 https://unity2.ai/register?ref=3XTnndN2 进行访问，支持 Claude、ChatGPT、Gemini 等最新模型！关注业余草微信公众号，添加作者微信：xttblog2！
本博客日IP超过2000，PV 3000 左右，急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包，请加博主新的微信号：xttblog2，之前的微信号好友位已满，备注：返现
受密码保护的文章请关注“业余草”公众号，回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽，请关注文末小程序
视频教程免费领

【腾讯云】1核2G5M轻量应用服务器50元首年，高性价比，助您轻松上云

Lucene 近年来越来越火，电商项目基本上都有使用。最近我在优化一些公司内部的系统，其中在搜索模块，我打算使用 Lucene 取代原来的基于 SQL 形式的搜索。本文算是 Lucene中文教程的第一章，认识 Lucene，和它的一些核心类介绍。

在开始之前，我在百度上搜索了 Lucene，发现下面的这些关键词比较火：

ucene和solr的区别、Lucene面试题、elasticsearch、Lucene netcore、Lucene怎么读、Lucene搜索、Lucene的名字、Lucene Spark、Lucene 原文档。

在谷歌上搜索 Lucene，发现下面这些关键词比较火：

lucene介绍、lucene github、lucene使用、lucene tutorial、lucene教程、lucene elasticsearch、lucene document、lucene solr、lucene中文教程、lucene jar。

经统计后，发现网上还是缺少一些 Lucene 方面的教程资料。而且 Lucene 方面的搜索指数在逐渐增高，因此我想对 Lucene 写一个教程集合，方便大家学习！

相信大多数公司的数据库都需要采用分库分表等一些策略，而对于某些特定的业务需求，分别从不同的库不同的表中去检索特定的数据显得比较繁琐，而Lucene正好可以解决某些特殊需求，对于不同库不同表中的数据先建立全量索引，然后将需要检索的数据写入某个单独的表中，供其它业务需求方查询，以后的每天只需要做增量索引并写入数据表即可。

Lucene是一个高效的，基于Java的全文检索库，生活中数据主要分为两种：结构化数据和非结构化数据。一般使用的XML、JSON、数据库等都是结构化数据，非结构化数据也叫全文数据，而这种全文数据正是Lucene的用武之地。全文检索主要有两个过程，索引创建（Indexing）和搜索索引（Search）。

Lucene 的特点有很多，我从网上找了下面几个方便大家认识：

在现代的硬件上一小时可以索引150GB的数据
索引20GB的文本文件，产生的索引文件大概是4-6GB
只需要1MB的堆内存
可定制的排序模型
支持多种查询类型
通过特定的字段搜索
通过特定的字段排序
近实时的索引和搜索
Faceting，Grouping，Highlighting，Suggestions等

基于 Lucene 的搜索技术，产生了两个大家非常熟悉的流行框架：Apache Solr 和 Elastic search。以及一些其他语言对 Lucene 的实现。

各种语言实现的 Lucene 框架

Lucene 搜索技术，最重要的部分就是索引。可以说所有的搜索技术都是基于索引的，包括数据库索引。

Lucene 的索引一般是创建并存储在文件系统之上。可以是本地，也可以是远程数据库等。Lucene 在文件系统中存储索引的最基本的抽象实现类是 BaseDirectory，该类继承自 Directory，BaseDirectory 有两个主要的实现类：

FSDirectory：在文件系统上存储索引文件，有六个子类，如下是三个常用的子类：SimpleFSDirectory、NIOFSDirectory、MMapDirectory。
RAMDirectory：在内存中暂存索引文件，只对小索引好，大索引会出现频繁GC。

Lucene 里面的索引核心类

IndexWriter：负责创建索引或打开已有索引
IndexWriterConfig：持有创建IndexWriter的所有配置项
Directory：描述了Lucene索引的存放位置，它的子类负责具体指定索引的存储路径
Analyzer：负责文本分析，从被索引文本文件中提取出语汇单元。对于文本分析器Analyzer，需要注意一点，就是使用哪种Analyzer进行索引创建，查询的时候也要使用哪种Analyzer查询，否则查询结果不正确。
Document：代表一些域（Field）的集合，你可以将Document对象理解为虚拟文档-例如Web页面、E-mail信息或者文本文件
Field：索引中的每个文档都包含一个或多个不同命名的域，每个域都有一个域名和对应的域值
FieldType：描述了Field的各种属性，在不使用某种具体的Field类型（例如StringField，TextField）时需要用到此类

Lucene 的使用场景

搜索引擎。例如：百度、必应、谷歌等。
站内搜索，比如，我个人网站的站内搜索。
文件系统的搜索，例如，window 系统中的搜索等。
商品搜索，电商系统的商品搜索。
大型系统的分库分表搜索
一些软件的内部搜索，例如 Eclipse 中的搜索等。

Lucene 全文检索的流程

通过本文，希望大家对 Lucene 有一个大概的认识，后面我们继续深入学习 Lucene。

业余草公众号

最后，欢迎关注我的个人微信公众号：业余草（yyucao）！可加作者微信号：xttblog2。备注：“1”，添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注！后续有精彩内容会第一时间发给您！原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系！

本文原文出处：业余草： » Lucene 实战教程第一章 Lucene 简介

一	二	三	四	五	六	日
« 6月
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Lucene 里面的索引核心类

Lucene 的使用场景

Lucene 全文检索的流程

相关文章推荐