采用Lucene.Net与盘古分词器的网上书城站内搜索方法

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:tcskater
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:该文针对网上书城对信息实时性与准确性高的要求,提出了使用lucene与盘古分词器相结合的站内搜索系统解决方案。通过分析lucene内置分词器与盘古分词器的性能差异,选择了针对中文开发的盘古分词器,提高了搜索的准确性;通过采用“生产者与消费者”多线程模式与“单例”设计模式相结合的方法,实现了数据的实时更新。实验结果证明了设计方案的有效性。
  关键词:lucene;盘古分词;网上书城;站内搜索
  中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)20-0184-04
  站内搜索是指对网站内部信息的精确检索和资源挖掘, 它为用户提供准确、快速的站内信息检索服务,站内搜索效果直接决定着网站商品的销量。现有的网上书城网站大多采用链接google和baidu网站的方法实现搜索,不利于数据的实时更新,此外,还存在着书籍信息准确性不高的缺点。
  Lucene是目前最流行开源检索工具包之一, 已经在许多搜索项目中得到了应用。盘古分词也是一个比较成熟的中文分词组件,而且采用多元分词技术,可以很好的实现对中文的分词。因而本文针对中小网上书城提出了一个基于lucene.net与盘古分词的站内搜索技术方案,提高网站的竞争力。
  1 站内搜索方案设计
  网上书城站内搜索系统框图如图1所示。
  本文提出的站内搜索方案将系统分为书籍编辑模块、索引模块、检索模块和展示模块4个部分。书籍编辑模块主要负责收集书籍的信息并且转换为纯文本信息,即lucene可识别的信息。索引模块主要针对数据库创建和维护索引库,即每当增加或修改书籍的信息到数据库时,就更新索引库。 检索模块主要针对用户输入的关键字进行分析,然后查询索引库找到相关联书籍,并且按相关性程度排序。展示模块主要负责接受用户输入的关键字,并展示搜索的结果中书籍的信息以及如何展示。根据搜索结果,可以定制个性化的展示。
  
  图1 网上书城站内搜索系统框图
  2 盘古分词器性能分析
  盘古分词是一个中英文分词组件。它的作者通过分析比较中文分词的一元分词、二元分词,多元分词和精确分词的性能,得出多元分词适用性更强。但采用多元分词产生了一些问题,第一,多元分词和搜索引擎结合得到较多的匹配结果,同时也增加了索引文件的大小;第二,由于将一些单词进行了拆分,搜索结果的排序会受到影响。为了克服这两个缺点,盘古分词提出了多元分词的冗余度(Redundancy)和多元分词结果的权重级别(Rank)的概念。盘古分词支持3级冗余。比如“湖北大学”,冗余度为0、1、2时,分词结果分别是“湖北大学”、“湖北,湖北大学,大学”、“湖北,湖北大学,大,大学,学”。盘古分词将多元分词出来的单词根据其词长,词的间隔以及未登录词的取舍等条件给定了不同的权重。在搜索时对分解出来的关键字,我们指定权重来影响搜索结果,以实现结果有效排序。比如搜“湖北大学”时,可以将“湖北大学”设置较高的权重,而“大学”和“湖北”设置较低权重,则包含“湖北大学”的记录就优先于包含“湖北”或“大学”的记录,这样就解决了排序问题。
  为了说明盘古分词优于lucene内置分词器,做了如下表格的对比。从表中可以看出,StopAnalyzer针对非字母字符拆分文本,然后小写英文字母,再过滤掉停用词;KeywordAnalyzer将整个文本当作一个词处理;SimpleAnalyzer和StopAnalyzer类似;WhitespaceAnalyzer根据空格拆分词汇单元;StandardAnalyzer按每个汉字拆分词,PanGuAnalyzer按有意义的中文词语分词,显然效果最佳。因而本文选择盘古分词器,提高搜索的准确性。
  分词比较的结果如下表1所示。
  表1 盘古分词器与lucene内置分词器性能比较
  [分词器
  结果
  分词内容\
其他文献
面对煤炭资源的枯竭,阜新市在转型过程中,以科学发展观为指导,从阜新实际出发,选择了向旅游业这一朝阳产业转型,采取有力举措,努力打造具有阜新特色的旅游城市。以此,可以带动相关产
OBE生物降解母粒,其主要成分包括改性矿石粉,纳米甲壳素,天然展着胶,土著菌激活剂组成,该母粒加入传统的PE、PP、PS等塑料等非降解塑料中,可赋予其生物降解性,利用OBE生物降解母粒生
2014年2月26日下午,省政协副主席、省委统战部部长、省社院党组书记孙远良到学院听取2013年工作总结及2014年工作要点,对学院2013年工作给予充分肯定,认为学院在20134-认真落实
常识来自生活体验,知识来自学习获取,智识来自经验淬炼。设计的涵义并非三言两语便可道尽,这是一个非常难有的解答问题。究其原因,没有一个最终的答案,设计不是一个不变可量
2016纸上创意艺术展的主题为"回归",强调用简约的设计将材料中所蕴含的自然肌理淋漓尽致地展现出来,体现设计的内在魅力。参赛作品包括书籍装帧、包装设计和纸艺这三种类型。20
摘要:Excel作为普及率最高的办公软件,受到广泛好评,同时Excel具有记录、统计数据的类似数据库的功能,被广泛用于日常的小规模的数据记录和管理。为了增加对Excel的自动化管理,可以使用c 等语言实现对Excel表的程序访问,提高工作效率。目前,网络共享资源中,对于ODBC API访问Excel表的介绍非常稀少,也不系统。该文希望能对这一领域进行补充和整理。  关键词:ODBC API;VC
纤维素是地球上最丰富的可再生天然物质,纳米纤维素(Nanofibers cellulose,NFC)是从天然纤维素中提取出来的纳米级高分子材料,具有优良的机械性能、光学性能和生物降解性能。本文
<正>~~
【正】 八十年代中期以来,我国教育和心理学工作者在积极引进、吸收国外最新研究成果的基础上,对幼儿品德心理展开了大量的理论与实验研究,并取得了一些突破性进展。这些研究
【正】 一、前言人们发现很小的婴儿就已经对颜色有喜爱的表现。有材料表明,4个月的婴儿就表现出对红色有一种特别爱好的情绪。人类对不同颜色爱好可以因年龄、性别、不同文