中文分词技术在信息检索系统中的应用研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:qingfeng44
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化时代的不断进步和发展,人们获取信息的手段也在不断的发生着变化,从原始的手工查找到现在的计算机搜索引擎。计算机技术的发展极大的促进了信息检索技术的进步,搜索引擎作为信息检索的主要手段,其发展受到越来越多研究机构和个人的重视。搜索引擎作为检索工具,其发展给我们的生活带来了前所未有的方便和快捷。当人类利用google、baidu等搜索引擎进行信息的查询和检索时,它们是如何知道我们最想要的结果是什么,有多少结果是我们需要的?  汉语言的博大精深使它不能像英语那样容易让人理解。当利用计算机处理汉语言时,输入计算机的仅仅是一连串的字符序列,除了标点符号就没有其他的分割标志,而英语却有一个明显的分割标志—空格,这使汉语分词遇到了一些在英语中没有的问题,这些问题都集中体现在中文分词技术中,其中以歧义词的切分和未登录词的识别为代表。  本文前面主要从理论上分析和介绍了目前的各种汉语自动分词方法,以及搜索引擎技术的相关情况。对各种分词方法的技术特点进行了阐述,对自动分词发展现状和趋势作了概括性的总结。讨论了中文分词中存在的两个主要问题—歧义词的切分和未登录词的识别,简单介绍了中文分词和信息检索的关系。  目前的分词算法主要有基于词典和无词典两大类,这两种算法各有优缺点。本文的分词系统是基于词典的,词典作为整个分词系统的核心,它的好坏直接影响到分词系统的效率和准确率,所以要从时间和空间多个方面考虑分词词典的组织结构。本文的主要工作如下:  1、简要的介绍了文章的研究背景和意义以及中文搜索引擎的相关情况,深入的研究了目前国内中文自动分词发展情况和中文自动分词面临的问题。  2、介绍了目前常用的几种词典算法结构,根据已有的词典算法并结合前人的研究工作,对基于双数组Trie树词典算法进行了改进,利用Lucene全文索引擎工具包的切分工具对原始语料进行初切分,并结合统计方法在切分过程中对歧义切分和未登录词识别进行了相应的处理,最后实现本文的分词系统CSSD。  3、把改进后的词典算法和目前现有的几种词典算法从空间利用率和查找速度进行了比较,并把本文的CSSD分词系统和中科院ICTCLAS分词系统以及前向最大匹配算法FMM从切分速度、切分准确率和未登录词识别三个方面进行了比较,结果显示,CSSD分词系统能够满足面向大规模信息检索的要求。最后,对全文的工作进行了总结,并提出进一步的研究工作。  
其他文献
本文基于军事作战对通信网络的特殊需求,分析并抽象出战术互联网络的应用场景。考虑到MANET在战场环境的应用,对战术互联网络进行建模,生成场景,并将其特征归纳为分层分布式的拓
随着应用软件的规模逐渐由几百行代码扩展到数万行,软件可靠性开始成为一个重要的研究课题。低可靠性经常会导致重要的、灾难性的后果。一个著名的例子就是第一次海湾战争中,
当今的网格研究集中在网格建设、网格系统软件和应用开发上,对于网格使用模型的研究还很少涉及。本文结合网格中心战中传感器网格和国家的织女星网格的开发和研究,对网格使用模
图像修复是指对图像中数据完全丢失的区域进行填充,以恢复其完整性和原有的视觉效果。图像修复是一个比较特殊的病态问题,它是一个从无到有的过程,我们必须根据先验知识,从周
间谍软件(Spyware)是一种有害软件(Malware),是恶意软件的一种,他们被悄悄的植入到用户的电脑上,在未经允许的情况下窃取用户的重要信息和隐私数据。由于间谍软件是一种未经
学位
火灾应急决策对火灾救援非常重要,传统应急决策主要依靠应急预案和专家经验。当前结合计算机技术和数学理论进行辅助应急决策是火灾应急领域研究的一个重要方向。城市火灾应
随着网络中多媒体业务和P2P业务的广泛应用,对网络流量识别与控制技术的研究已成为网络流量管理中的重要课题。网络流量控制是保证网络中关键业务正常运行的重要手段。网络流
正颌外科手术计划及仿真系统研究的两个关键问题是对人体组织的建模和对外科手术术式的仿真。过去的研究中,对手术术式的仿真研究多围绕人体的骨组织进行,对人体软组织的仿真
可压缩传感理论(Compressed Sensing,CS)是信号处理领域新近发展的一种新框架。它的主要内容是:利用稀疏或可压缩信号的少量且非相干的随机线性投影获得信号的编码,通过一定