LUCENE中文分词在科研文档全文检索系统的应用研究

来源 :青岛大学 | 被引量 : 0次 | 上传用户:beret85
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何快速有效地从海量的信息资源中找到自己所需要的资源,已经成为人们越来越重视的问题。全文检索技术即是可以解决这个问题的主要技术。目前广泛使用的全文检索技术是Lucene工具包。Lucene是一个开源的全文检索引擎组件,在此基础上可以方便地对其进行二次开发来实现全文检索系统。但是Lucene仍有许多不足的地方需要进行改进,特别是在中文分词的处理上。由于中文分词质量的准确与否,将直接影响到用户对搜索结果的满意度,因此中文分词技术在全文检索系统中尤为重要,也是本文研究的关键内容。论文首先阐述了Lucene全文检索的相关技术,阐述了现有的中文分词方法,然后分析了Lucene的两个分析器ChineseAnalyzer和CJKAnalyzer的不足,并提出了基于词典的双向最大匹配分词算法;分析了Lucene对于文档格式支持的局限性,提出了一个通用的文本解析框架。论文的主要工作是分析设计并实现了一个基于Lucene的科研文档全文检索系统。分析了系统的总体架构和功能模块,对系统进行了总体设计和详细设计。针对科研文档格式的多样性,构建了文本解析模块,可以对多格式文档进行解析。系统的中文分析器采用改进的中文分词算法实现。对文本解析模块、中文分析器和系统的性能进行实验分析,通过实验证明,中文分析器的分词效果非常显著,系统的查全率和查准率都达到了用户的满意度。最后,论文对基于Lucene的科研文档全文检索系统进行了分析,总结了本文取得的成果,并对未来进一步的工作内容进行了展望。
其他文献
近些年,企业规模和业务不断向多个地区扩展,企业数据环境也因此变得更加复杂。ETL,即数据抽取、转换和加载过程,是构建数据仓库的重要环节,所占工作量很大。如何提高ETL的处理能力
随着无线射频识别技术(Radio Frequency Identification,RFID)的广泛应用,RFID供应链中信息的安全和隐私保护问题变得越来越严峻,阻碍了RFID技术在各行业的进一步应用。研究有效的
互联网迅猛发展,使得互联网成为一个庞大的信息源。结构化数据作为网络中比较常见的数据形式之一,具有多种网页呈现方式,对于这些数据的抽取,往往需要大量的人工操作,这给数据的抽
随着社会信息化技术的快速发展,企业越来越依赖运用信息化技术管理内部业务。因此企业开发出了各种不同的应用系统,而这些系统是在不同时期由不同人员开发设计的,它们都有独
药品食品安全是保障人类正常生活的前提,如何提高药品食品安全是当今社会迫切需要解决的问题。加强对药品信息的管理是提高药品安全的有效途径之一。   本课题基于如何提高
随着在线服务的快速发展,互联网上拥有的信息量呈现爆炸性增长趋势,导致人们很难有效地获取感兴趣的内容。推荐系统是帮助用户发现符合其兴趣偏好的物品,缓解信息过载问题的
随着信息化进程的日益推进,信息系统被广泛应用于社会生产的各个环节,信息系统在带来便利性与企业效率的同时,对机密隐私信息的保护以及主体信息可信度的保障也带来了隐患。保障
纤维和纺织品自动图像检测系统通过识别切片中各种纤维的类型并进行数量统计,达到检测纺织品质量的目的。在理想情况下,当物体处于聚焦平面上时,才能拍摄出最清晰的图像,而纤
复杂网络中的搜索问题涉及网络中指定文件或数据的寻找及网络节点间最短路径的确定,具有重要的现实意义和较高的研究价值。复杂网络搜索策略通常可用一个消息传递的过程来描
随着硬件技术、计算机图形学和材料学等学科快速发展,口腔正畸领域出现了隐形矫治技术。隐形矫治技术因能克服传统口腔正畸方法难以克服的缺点,受到了广泛的关注,成为口腔正