lucene原理介绍

lovefeixian

浏览: 70664 次

最近访客更多访客>>

Geng恋红尘优柔岁月

无量

HMinly

magexi

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

lucene-solr

lucene原理介绍

全文检索：是指以文本作为检索对象，找出含有指定词汇的文本。

全文检索功能的开发，要做的有两个方面：

1、索引库管理（维护索引库中的数据）

2、索引库中进行搜索。

而Lucene就是操作索引库的工具。

使用lucene的API操作索引库

对索引库的操作可以分为两种：管理与查询。

管理索引库使用IndexWriter，从索引库中查询使用IndexSearcher。

Lucene的数据结构为Document与Field。

Document代表一条数据，Field代表数据中的一个属性。一个Document中有多个Field，Field的值为String型，因为Lucene只处理文本。

我们只需要把在我们的程序中的对象转成Document，就可以交给Lucene管理了，搜索的结果中的数据列表也是Document的集合。

倒排序索引的原理就如同查字典。

要先查目录，得到数据对应的页码，在直接翻到指定的页码。不是在文章中找词，而是从目录中找词所在的文章。

这需要在索引库中生成一个词汇表（目录），在词汇表中的每一条记录都是类似于"词所在文档的编号列表"的结构，记录了每一个出现过的单词，和单词出现的地方（哪些文档）。

查询时先查词汇表，得到文档的编号，再直接取出相应的文档。

分享到：

solr-schema配置详解 | spring声明式事务详解

2015-05-08 15:09
浏览 452
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论