新型桌面搜索关键技术的研究与实现

来源 :硅谷 | 被引量 : 0次 | 上传用户:bassdd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 研究与实现一款新型的桌面搜索引擎。该引擎是在Lucene的基础上进行实现的。不仅实现对全盘文件信息的搜索,也进一步实现对全盘普通文件的全文解析与搜索。
  关键词: 桌面搜索引擎;中文分词;倒排索引;查询推荐
  0 引言
  桌面搜索引擎也称为个人桌面引擎或个人硬盘搜索引擎,是对个人电脑上存储的信息进行索引、查找的检索工具。
  桌面搜索的发展已经成为了互联网领域的最大亮点之一,同时它也为搜索引擎领域带来了新的发展机会。随着众多厂商的加盟,桌面搜索引擎的竞争日趋激烈。目前市场上主流的桌面搜索引擎有以下几种:Google Desktop Search、百度硬盘、MSN搜索工具和中搜的网络猪等。
  本文在对原有桌面搜索引擎的学习和了解之后,研究与开发了一款新型的桌面搜索引擎,实现了查询推荐和即敲即得式搜索,能够针对多关键词搜索等功能。
  1 主要工作
  本文主要研究了新型桌面搜索引擎的原理和基本方法,并基于此实现一款新型的桌面搜索引擎。具体如下:
  1)研究Lucene的索引机制和搜索原理;
  2)学习和了解中文分词的算法和原理;
  3)使用多线程技术和内存缓冲等优化系统性能;
  4)实现普通文档格式的解析、索引和搜索以扩大搜索范围;
  5)基于Trie检索树实现搜索时的关键词查询推荐;
  6)基于Lucene实现一款新型的桌面搜索引擎。
  根据以上所述使用开源检索框架Lucene实现了一个体积轻便、索引快速、界面友好的桌面搜索引擎。经过实例测试,系统达到了较为满意的性能,能够高效、快速的提供搜索结果。
  2 基于Trie检索树实现查询推荐
  本系统基于Trie检索树实现了查询推荐。由于汉字本身的固有复杂性,创建中文Trie树的时候是系统遇到的一个复杂点。经过反复对比和测试,系统使用Trie树结点存储汉字的拼音,尾结点存储漢字来实现汉字的存储。
  2.1 中文Trie树建立
  根据汉字的拼音创建Trie树的思想是使用结点存储汉字拼音,这样的好处是可以将中文和英文合并建立Trie树,并且每个结点最多有27个儿子结点。其复杂之处是处理同音的词语。
  下面以词语“实际”和“世纪”为例,演示插入中文的过程,如表1所示。
  2.2 提取系统关键词成词库
  系统词库来源于系统,通过在系统进行中文分词时截取由分词器所分的关键词获取。本文采用修改Lucene源码(TermIn
  ForsWriter函数)来截获关键词。
  此外,为了保证关键词的质量,还对关键词进行过滤和筛选:
  3 Lucene索引机制和多关键词查询的实现
  倒排索引不同于以往的索引结构,它源于实际应用中需要根据属性的值来查找记录。倒排索引的每一项为一个属性值和具有该属性值的该记录的地址。
  如下面的例子就是对文章1和2进行创建倒排索引的过程:
  文件1:当幸福来敲门.rmvb
  文件2:幸福在你心间.pdf
  表2为对上述文章所创建的倒排索引表:
  Lucene是一个开源的检索工具,其索引机制为倒排索引,使用倒排索引可以在搜索的时候根据关键词很快的获得含有该关键词的所有文件名称。在本系统中使用倒排索引,在搜索的时候能够在1秒的时间范围内获得搜索结果。
  为了提高搜索精度,本系统还提出了多关键词搜索的功能。系统搜索接口使用Lucene搜索API:IndexSearcher。使用QueryParser实现了多关键词查询:在构造搜索时,设置QueryParser对象的默认操作属性为QueryParser.AND_OPERATOR,通过此设置,对用户输入内容进行“与”操作,实现多关键词搜索。
  4 系统实现与优化
  系统可以分为两个部分:前端和后端。前段为用户的可视部分,负责用户的查询和结果显示;后端负责磁盘文件的扫描、文件的解析和索引的写入、查询推荐的实现等。
  4.1 系统性能优化
  此外还着重提高了系统的性能,以提高用户体验度,系统主要从以下几个方面对系统进行优化:
  1)线程查看:使用线程实时判断文件信息的是否写入完成,以便及时进行解析和创建索引;
  2)多线程索引:多线程来提高索引速度;
  3)内存创建索引:索引创建放在内存提高索引速度;
  4)索引优化:使用索引更新和删除优化索引;
  5)系统命令获取文件信息以加快文件获取速度。
  对系统的优化,主要是提高系统的性能和索引速度,能够对系统磁盘文件很快的建立索引文档,从而很快的获取搜索结果。通过对使用多线程和内存缓冲技术,使得系统的解析和索引时间70多分钟降到15分钟左右,极大的缩短了索引创建时间。
  4.2 系统界面优化
  在专注系统性能的同时,系统还实现了友好的界面,以提高用户使用时的舒适度,系统界面简洁大方、简单易用、小巧方便。具体来说有以下几点特色:
  1)界面动态变化:界面根据搜索结果的获得动态伸展;
  2)界面简洁大方:各个控件布局清晰明了、简单易用;
  3)实现换肤功能:用户可以根据自己的喜好进行换肤;
  4)点击直接打开文件:对于搜索到的文件,可以双击直接打开或者右键选择打开所在目录和文件;
  5)实现分类搜索:按照内容和标题进行搜索。
  5 小结
  本文基于开源的检索框架Lucene,实现了一款新型的桌面搜索引擎。能够在用户输入查询词的时候及时捕捉输入词内容
其他文献
摘要:由于社会科技的不断发展,电子技术在现阶段的工程领域中得到了越来越广泛的应用。电子技术在工程领域中的应用对国民经济的发展起到了巨大的推动作用。不仅可促进了工程领域的不断发展,在工程领域中应用的过程中也促进了自身的发展。本文结合笔者相关工作经验,就电子技术在工程领域中的应用展开了简要的探讨。  关键词:电子技术;重要性;应用  中图分类号:C35 文献标识码: A  前言  电子技术已经成为了现
期刊
摘 要: 随着海洋资源的不断开发和利用,海岛的开发越来越受到国家和社会的重视,然而,海岛的电力供应始终是制约海岛经济发展的瓶颈。保证海岛供电安全,提高海岛的供电可靠性则势在必行。研究海岛智能微网模型,讨论在微电网的过电流继电保护。鉴于微电源的多变性,微电网中潮流双向性以及短路故障电流小等特点,探讨采用先进的通讯设备,建立一套的继电保护系统。该系统能够不断追踪检测微电源的运行情况从而来改变过流继电器
【摘 要】近年来,随着经济的快速发展,世界在能源的使用上取得了巨大突破。如今,大部分家庭使用的燃料都为天然气,可以说,天然气已经走入了我们每个人的生活。目前来看,我国天然气资源的运输主要是依靠管道进行,管道一般都为钢制的。由于我国国土面积庞大再加一些天然气需要进行长远距离运输,这些因素导致我国的天然气管道长度十分惊人。天然气运输过程中由于需要经过各种各样的环境,不可不避免的会造成管道的腐蚀破坏,一
期刊
摘要:随着我国经济建设进程的不断加快,我国电网的建设也在快速地发生着翻天覆地的变化,在相关设备和电网技术等方面实现了较大的飞跃,逐渐往现代化、自动化方向发展。基于这种现状,我国电网对变电运行管理和电网的安全运行提出了更高的要求。本文主要对变电运行管理和电网安全运行进行了分析和探讨。  关键词:变电运行;管理;电网安全运行  中图分类号:C93文献标识码: A   一、变电运行管理与电网安全运行的相
期刊
摘要:我们国家现代化建设在不断的发展,智能电表也被广泛应用。本文根据现代智能电表的功能与特点,详细地介绍了智能电表的应用和独特优势,并从产业体、功能设置、接口设置等方面入手分析了未来我国智能电表的发展趋势。希望能为我国智能电表的应用与发展提供理论支持。    关键词:探索和分析;智能电表;特点;应用  中图分类号:C939文献标识码: A     前言:我国用电信息采集系统建设的最终目标是成功实现
期刊
摘要:我国用电量非常高,并且呈上升趋势,因此电力系统发展的较为快速,为了迎接未来用电的新挑战,我国逐渐将电表向智能化转变,智能电表由此而被发明,下面文章就只能电表的应用以及其发展进行探讨。  关键词:智能电表;应用;发展;  中图分类号:C939文献标识码: A   前言:电能是人们日常生活中必不可少的一部分,智能电表的应用与发展对改善人们的生活有着重要的益处,而且对缓解我国供电紧张的现状有着重要
期刊
摘要:建筑工程施工管理作为一个系统工程,具有施工面宽、流动性较大、不可预见因素较多以及容易受外界影响较大等特点,而建筑工程施工管理对工程质量起着至关重要的作用,其中过程控制又占据着建筑工程施工管理的重要地位。就建筑工程而言,成本、进度和质量控制这三个方面是建筑工程施工管理过程控制中的要点,其关系是相辅相承、互相制约的。成本投入的多少能够制约进度和质量控制的效果,同时进度和质量控制的优劣也能制约成本
期刊
摘要:高压开关设备其主要作用是在电力系统进行发电、输电、配电和电能转换的过程中,进行开合、控制和保护用电设备。开关柜内的部件主要有断路器、隔离开关、负荷开关、操作机构、互感器以及各种保护装置等组成。主要适用于发电厂、变电站、石油化工、冶金轧钢、轻工纺织、高层建筑等各种不同场。基于此,对高压开关设备使用中存在的问题以及改进措施的分析探讨就显得尤为重要。  关键词:高压;开关设备;问题;措施  中图分
期刊
摘要:一个城市的风景园林是这座城市品位的象征,内涵的体现。优秀的风景园林规划设计可以使风景园林产生质的变化,而风景园林规划设计涉及的问题有很多,比如当地的风土民情、气候特点、生活习惯、建筑特色等,都要有所体现。  关键词:风景园林 规划设计 问题  中图分类号:TU986文献标识码: A   概述:在进行城市总体规划和建设中,其中最重要的一个部分就是风景园林。近年来,社会经济的快速发展导致城市不断
期刊
通过对自动化装置技术沿革的分析,展示自动化装置的概念。通过对基本控制规律的研究,推导出一系列公式,阐述自动化装置的控制原理。 Through the analysis of the evolution