Lucene 实战教程第二章入门教程 Hello World

公告：“业余草”微信公众号 AI 中转站提供免费体验，点击链接 https://unity2.ai/register?ref=3XTnndN2 进行访问，支持 Claude、ChatGPT、Gemini 等最新模型！关注业余草微信公众号，添加作者微信：xttblog2！
本博客日IP超过2000，PV 3000 左右，急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包，请加博主新的微信号：xttblog2，之前的微信号好友位已满，备注：返现
受密码保护的文章请关注“业余草”公众号，回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽，请关注文末小程序
视频教程免费领

【腾讯云】1核2G5M轻量应用服务器50元首年，高性价比，助您轻松上云

基于前一章的内容，我们对 Lucene 有了一个大概的了解，本文来一个 Hello World 程序！让我们从此开启 Lucene 的学习模式。

首先，我们新建一个 Maven 项目，然后在 pom.xml 中配置以下内容：

<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-core</artifactId>
</dependency>
<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-analyzers-common</artifactId>
</dependency>
<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-queryparser</artifactId>
</dependency>
<dependency>
    <groupId>org.apache.lucene</groupId>
    <artifactId>lucene-highlighter</artifactId>
</dependency>
<dependency>
    <groupId>org.wltea.analyzer</groupId>
    <artifactId>ikanalyzer</artifactId>
</dependency>

然后编写一个测试的 LuceneHelloWorld 类。

public static void main(String[] args) {
    //构建IK分词器，使用smart分词模式
    Analyzer analyzer = new IKAnalyzer(true);
    //获取Lucene的TokenStream对象
    TokenStream ts = null;
    try {
        ts= analyzer.tokenStream("xttblogfield",new StringReader("业余草网站：www.xttblog.com，" 
            + "公众号：业余草(yyucao)！IKAnalyer can analysis english text too"));
        //获取词元位置属性
        OffsetAttribute offset = ts.addAttribute(OffsetAttribute.class);
        //获取词元文本属性
        CharTermAttribute term = ts.addAttribute(CharTermAttribute.class);
        //获取词元文本属性
        TypeAttribute type = ts.addAttribute(TypeAttribute.class);
        //重置TokenStream（重置StringReader）
        ts.reset();
        //迭代获取分词结果
        while (ts.incrementToken()) {
            System.out.println(offset.startOffset()+" - "+ offset.endOffset() 
            +" : " + term.toString() + " | " + type.type());
        }
        //关闭TokenStream（关闭StringReader）
        ts.end(); // Performend-of-stream operations, e.g. set the final offset.
    }catch(IOException e) {
        e.printStackTrace();
    }finally{
        //释放TokenStream的所有资源
        if(ts !=null){
            try {
                ts.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }
}

运行之后的效果如下：

0 - 2 : 业余 | CN_WORD
2 - 3 : 草 | CN_CHAR
3 - 5 : 网站 | CN_WORD
6 - 21 : www.xttblog.com | LETTER
22 - 24 : 公众 | CN_WORD
24 - 25 : 号 | CN_CHAR
26 - 28 : 业余 | CN_WORD
28 - 29 : 草 | CN_CHAR
30 - 36 : yyucao | ENGLISH
38 - 47 : ikanalyer | ENGLISH
48 - 51 : can | ENGLISH
52 - 60 : analysis | ENGLISH
61 - 68 : english | ENGLISH
69 - 73 : text | ENGLISH
74 - 77 : too | ENGLISH

至此，Lucene 创建索引的内容，我们就介绍完了。下章我继续学习一些简单的检索教程。

业余草公众号

最后，欢迎关注我的个人微信公众号：业余草（yyucao）！可加作者微信号：xttblog2。备注：“1”，添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注！后续有精彩内容会第一时间发给您！原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系！

本文原文出处：业余草： » Lucene 实战教程第二章入门教程 Hello World

一	二	三	四	五	六	日
« 6月
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

相关文章推荐