倒排索引是翻译错误?一起来看翻车现场!

JAVA herman 66浏览
公告:“业余草”微信公众号提供免费CSDN下载服务(只下Java资源),关注业余草微信公众号,添加作者微信:xmtxtt,发送下载链接帮助你免费下载!
本博客日IP超过1800,PV 2600 左右,急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包,请加博主新的微信号:xttblog,之前的微信号好友位已满,备注:返现
所有面试题(java、前端、数据库、springboot等)一网打尽,请关注文末小程序

昨天,很多买了 Elasticsearch 的网友,在群里问:“Elasticsearch 中的索引为什么叫倒排索引?很难理解!”

这一问,立马引起了很多人的注意,包含很多没关注过倒排索引的人。今天我们一起来看看,为什么叫倒排索引?

有倒排就有正排。其中正排索引是这样的,在一篇文章中,我们去找某些关键字,这叫正排索引。

反过来,根据关键字去找某一篇文章,就叫做倒排索引。

倒排索引,英文名叫:Inverted index。也常被称为反向索引、置入档案或反向档案,翻译成倒排索引,完全是一种翻译“错误”。只不过最初翻译的人,可能是相当正排序来翻译的,并不是根据字面意思来翻译的,随着大家都叫习惯了之后,倒排索引就流传开来了。

之所以不好理解,完全是被最开始翻译的人带坑里了。当然,作为第一个翻译者承受的压力也是巨大的。但是我们的思维完全不要局限于倒排索引的这个“倒”字。

如果说,A—Z 算是正排序的话,倒排序应该是 Z—A 吧。但其实 Elasticsearch 并不是这样的!所以,我个人更喜欢于把它翻译成反向索引。

什么是倒排序索引

比如,我现在有一个类似上面的文档。文档内容中的词,我们忽略。那么,现在我们来模仿着创建一个倒排索引列表。

倒排序索引怎么理解

实际代码中,可以根据不同的分词插件和实现代码分出不同的词。比如,业余草,在不同的分词组建下,可能被分为:“业余,草”两个词,公众号也可能被分为“公众,号”。所以,对于我上面具体的分词是否恰当,大家不要太过于纠结!

有了这个分词之后,就相当于建立了倒排索引(反向索引)。那么我们就可以根据关键词来搜索出对应的文档了。

比如,当我搜索“业余草”关键词的时候,1、2、3 这三篇文章就会被搜索出来。这和我们在文章中搜索关键词,通过关键词来搜索文章,完全是一种反向思维。所以说是反向索引更为合适,如果你硬要死搬硬套倒排,那就不好走出思维陷阱了。

总之,你这样理解就好了:

  • 正排:文档——>关键词
  • 倒排:关键词——>文档

以上,希望能够帮助大家在学习 Elasticsearch 时少走一些弯路。至于是否是翻译错误,那都是历史原因,一切请向前看。一起精进,请加微信号:xttblog。

业余草公众号

最后,欢迎关注我的个人微信公众号:业余草(yyucao)!可加QQ1群:135430763(2000人群已满),QQ2群:454796847(已满),QQ3群:187424846(已满)。QQ群进群密码:xttblog,想加微信群的朋友,之前的微信号好友已满,请加博主新的微信号:xttblog,备注:“xttblog”,添加博主微信拉你进群。备注错误不会同意好友申请。再次感谢您的关注!后续有精彩内容会第一时间发给您!原创文章投稿请发送至532009913@qq.com邮箱。商务合作可添加助理微信进行沟通!

本文原文出处:业余草: » 倒排索引是翻译错误?一起来看翻车现场!