标签:Tokenizer

业余杂谈

别被那个每天烧 20 亿 Token 的 CTO 骗了

herman 2天前 65浏览

花 3 个月用 AI 干掉 100 个程序员,这笔账,全世界都算错了。 今天上午,微信群里消息突然多了起来,我快速看了一眼,原来是最近,科技圈被一个“爽文”般的故事刷屏了。 故事的主角,描述的是一位独角兽公司的 CTO。在昆仑万维董事长...

JAVA

Lucene 实战教程第九章自定义 Analyzer

herman 8年前 (2018-12-12) 2913浏览

在 Lucene 中,不仅 TokenFilter 我们可以自定义,Analyzer 我们也可以自定义。本文介绍两个扩展 Analyzer 的例子,分别实现扩展停用词,实现字长过滤的功能。 自定义 Analyzer 自定义 Analy...

JAVA

lucene 创建索引步骤

herman 9年前 (2017-08-22) 2849浏览 0评论

索引是现代搜索引擎的核心,建立索引的过程就是把源数据处理成非常方便查询的索引文件的过程。为什么索引这么重要呢,试想你现在要在大量的文档中搜索含有某个关键词的文档,那么如果不建立索引的话你就需要把这些文档顺序的读入内存,然后检查这个文章中是不是含有...