公告:“业余草”微信公众号提供免费CSDN下载服务(只下Java资源),关注业余草微信公众号,添加作者微信:xttblog2,发送下载链接帮助你免费下载!
本博客日IP超过2000,PV 3000 左右,急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包,请加博主新的微信号:xttblog2,之前的微信号好友位已满,备注:返现
受密码保护的文章请关注“业余草”公众号,回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽,请关注文末小程序
腾讯云】1核2G5M轻量应用服务器50元首年,高性价比,助您轻松上云
本博客日IP超过2000,PV 3000 左右,急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包,请加博主新的微信号:xttblog2,之前的微信号好友位已满,备注:返现
受密码保护的文章请关注“业余草”公众号,回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽,请关注文末小程序
腾讯云】1核2G5M轻量应用服务器50元首年,高性价比,助您轻松上云
基于前一章的内容,我们对 Lucene 有了一个大概的了解,本文来一个 Hello World 程序!让我们从此开启 Lucene 的学习模式。
首先,我们新建一个 Maven 项目,然后在 pom.xml 中配置以下内容:
<dependency>
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-core</artifactId>
</dependency>
<dependency>
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-analyzers-common</artifactId>
</dependency>
<dependency>
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-queryparser</artifactId>
</dependency>
<dependency>
<groupId>org.apache.lucene</groupId>
<artifactId>lucene-highlighter</artifactId>
</dependency>
<dependency>
<groupId>org.wltea.analyzer</groupId>
<artifactId>ikanalyzer</artifactId>
</dependency>
然后编写一个测试的 LuceneHelloWorld 类。
public static void main(String[] args) {
//构建IK分词器,使用smart分词模式
Analyzer analyzer = new IKAnalyzer(true);
//获取Lucene的TokenStream对象
TokenStream ts = null;
try {
ts= analyzer.tokenStream("xttblogfield",new StringReader("业余草网站:www.xttblog.com,"
+ "公众号:业余草(yyucao)!IKAnalyer can analysis english text too"));
//获取词元位置属性
OffsetAttribute offset = ts.addAttribute(OffsetAttribute.class);
//获取词元文本属性
CharTermAttribute term = ts.addAttribute(CharTermAttribute.class);
//获取词元文本属性
TypeAttribute type = ts.addAttribute(TypeAttribute.class);
//重置TokenStream(重置StringReader)
ts.reset();
//迭代获取分词结果
while (ts.incrementToken()) {
System.out.println(offset.startOffset()+" - "+ offset.endOffset()
+" : " + term.toString() + " | " + type.type());
}
//关闭TokenStream(关闭StringReader)
ts.end(); // Performend-of-stream operations, e.g. set the final offset.
}catch(IOException e) {
e.printStackTrace();
}finally{
//释放TokenStream的所有资源
if(ts !=null){
try {
ts.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
}
运行之后的效果如下:
0 - 2 : 业余 | CN_WORD 2 - 3 : 草 | CN_CHAR 3 - 5 : 网站 | CN_WORD 6 - 21 : www.xttblog.com | LETTER 22 - 24 : 公众 | CN_WORD 24 - 25 : 号 | CN_CHAR 26 - 28 : 业余 | CN_WORD 28 - 29 : 草 | CN_CHAR 30 - 36 : yyucao | ENGLISH 38 - 47 : ikanalyer | ENGLISH 48 - 51 : can | ENGLISH 52 - 60 : analysis | ENGLISH 61 - 68 : english | ENGLISH 69 - 73 : text | ENGLISH 74 - 77 : too | ENGLISH
至此,Lucene 创建索引的内容,我们就介绍完了。下章我继续学习一些简单的检索教程。

最后,欢迎关注我的个人微信公众号:业余草(yyucao)!可加作者微信号:xttblog2。备注:“1”,添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注!后续有精彩内容会第一时间发给您!原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系!
本文原文出处:业余草: » Lucene 实战教程第二章入门教程 Hello World