解剖 Lucene 的总体架构

herman 7小时前 5浏览 0评论

Lucene 使用起来很简单,但是要搞懂它内部的一些算法就很难了。本文将从 Lucene 的架构图来介绍 Lucene 的特点和常用包。 Lucene总的来说是: 一个高效的,可扩展的,全文检索库。 全部用Java实现,...

Lucene 中文词汇分词(Word Segment)问题总结

herman 7小时前 6浏览 0评论

对于中文来说,全文索引首先还要解决一个语言分析的问题,对于英文来说,语句中单词之间是天然通过空格分开的,但亚洲语言的中日韩文语句中的字是一个字挨一个,所有,首先要把语句中按“词”进行索引的话,这个词如何切分出来就是一个很大...

Lucene 全文检索不等于like “%keyword%”

herman 8小时前 5浏览 0评论

很多人还是停留在会写代码的行列,例如做一个搜索功能,往往使用 SQL 中的 like 语句来解决,然而 like 语句在大数据的情况下,产生的超大影响将可能使你的整个数据库出现高 IO,CPU 久高不下的情况。那么这样的设计能用吗?答案当然是不可...

详解 Lucene 对 Term的权重(Term weight) 计算

herman 9小时前 5浏览 0评论

不管你是用百度还是谷歌,都有一套权重算法。以百度为例,权重越高,搜索出来的结果排名就越靠前。同理 Lucene 的对搜索结果是如何排序的呢?答案是对搜索词的权重(Term weight)计算。本文将介绍一下 Lucene 的权重(PR)计算方式。...

Lucene 如何对索引进行搜索?

herman 9小时前 6浏览 0评论

对文档建立好索引后,就可以在这些索引上面进行搜索了。搜索引擎首先会对搜索的关键词进行解析,然后再在建立好的索引上面进行查找,最终返回和用户输入的关键词相关联的文档。 到这里似乎我们可以宣布“我们找到想要的文档了&rdqu...

lucene 创建索引步骤

herman 9小时前 6浏览 0评论

索引是现代搜索引擎的核心,建立索引的过程就是把源数据处理成非常方便查询的索引文件的过程。为什么索引这么重要呢,试想你现在要在大量的文档中搜索含有某个关键词的文档,那么如果不建立索引的话你就需要把这些文档顺序的读入内存,然后检查这个文章中是不是含有...

Lucene的索引(Index)里面究竟存些什么?

herman 10小时前 9浏览 0评论

前面的一篇文章中,我们学习了 Lucene 的原理和实现机制。并从中了解到 Lucene 提供的全文检索主要用到了,索引的创建和索引的检索。但是 Lucene 中的索引到底存储的是什么呢?为什么它能这么快呢?本文将为你揭开 Lucene 索引的神...

Lucene 原理和实现机制

herman 11小时前 11浏览 0评论

还有不了解 Lucene 的,可以先看我前面一篇关于 Lucene 简介的文章《Apache Lucene 简介》。本文将详细的介绍 Lucene 的原理和实现机制,以及 Lucene 和数据库的对比。 目前已经有很多应用程序的搜索功能是基...

Apache Lucene 简介

herman 13小时前 8浏览 0评论

目前越来越多的项目加入 Apache Lucene 框架,以实现全文检索的功能。本文将主要介绍Lucene 是什么?Lucene的作者简介,Lucene的发展历程,以及使用Lucene比较著名的项目。 Lucene 是什么...

腾讯 soter 原理

herman 6天前 37浏览 0评论

TENCENT SOTER之所以能实现支付级别的指纹授权安全性,主要原因有三: 所有关键数据存储与操作均根本依赖TEE 厂商在设备出厂之前安全环境会专门生成TENCENT SOTER设备根密钥 生物授权的实质是密钥签...

腾讯开源生物认证平台soter简介

herman 6天前 37浏览 0评论

腾讯(Tencent)的 soter 选择开源了,一时间在网上引起了极大的关注,我也是最近才注意到它。对它有一个简单的了解,本文将根据作者自己的理解,来介绍一下soter到底是一个什么框架? 按照腾讯官方的说法:“A secur...

WebVR 简介

herman 1周前 (08-15) 41浏览 0评论

最近大漠穷秋和VUE框架的作者在网上对WebVR进行了撕逼的争论。目前知乎上的相关文章已经被删除了,大家在网上找找,应该还能找到相应转载的文章。 回到本文主题。去年谷歌和火狐针对WebVR提出了WebVR API的标准,顾名思义,WebVR...