面向大规模信息检索的中文分词技术研究

被引量 : 22次 | 上传用户:fyishen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是中文信息处理的一个基础环节。在中文信息检索的文本处理阶段,也常用到这项技术。学术界关于分词技术的研究一直比较多,但是目前的研究大多是通用的分词算法,专门针对信息检索应用的分词技术研究相对较少。 本文首先介绍了中文分词的难点,以及目前常用的一些切分算法。然后综合分析了分词技术对中文信息检索的影响,在此基础上系统地提出了适用于信息检索应用的分词技术的特点,并且根据这些特点给出我们自己的分词算法。 由于面向大规模信息检索的分词算法对时间性能要求较高,我们的词典算法采用了双数组Trie树优化算法。该算法查询一个词语最多只需要进行n-1次整数相加,时间复杂度是O(n),n为查询词长度。我们的实验显示,无论是单纯的词语查询速度还是最大匹配切分速度,双数组Trie树算法都要比目前词典机制中常用的普通Trie树算法和双字Hash算法快。 歧义消除和未登录词识别是分词的两大技术难点。考虑到信息检索应用的特点,在歧义消除部分,对于交叉歧义和覆盖歧义这两类歧义,我们只处理前者,并在歧义位置用双字耦合度和t-测试差的线性迭加值来判断是否切分;对于后者,我们提出一种在查询扩展时处理的方法。未登录词识别部分我们则利用单字的成词位置概率,同时结合局部二元串频统计对所有命名实体和新词进行统一识别。 实验表明,该分词算法切分速度在CPU3.2G,内存512M的环境下能达到2MB/秒,比当前一些切分精度较高的分词算法如ICTCLAS要快很多;在同样检索系统下,和信息检索中常用的交叉二元切分法、分词中常用的最大匹配法和ICTCLAS相比,使用该算法后检索出的前10篇文档的准确率P@10分别提高了9%、11.4%和8.8%,前20篇文档的准确率P@20提高了13.2%、12.7%和7.5%。
其他文献
随着我国电力企业物资管理的快速发展,对信息的处理方法及手段要求也越来越现代化,物资管理的水平也不断提高深化。为了进一步提高发电厂物资管理的效率,及时准确地了解物资
环境问题是目前社会备受瞩目的一个焦点问题。随着经济的发展和城市人口的增长,城市污水日趋增多,工业污水和未经处理的生活污水直接排入城区河流,导致水环境污染日益严重,已
[目的]本次研究从我国大学新生存在的心理问题为出发点,以大学一年级学生为研究对象,通过开放性、结构性团体辅导的形式进行干预,研究团体辅导对提高大学生心理素质的影响因
本文的研究对象是吐鲁番地区公元前6世纪至公元1世纪时期的墓葬。以吐鲁番地区这一时期的墓葬研究为出发点,结合其他地区文化的考古资料,探讨当时东西交通路线上多种文化的联
随着市场经济的不断完善,人们逐渐认识到会计报表的局限性。在基本会计报表之外提供其他辅助性的信息成为顺其自然的选择,会计报表附注也显得越来越重要,其长度已大大超过会
本文提供了一个基于一阶搜索优化的有限元模型修正方法.它只需利用结构模态试验的部分固有频率,就能获得较精确的有限元模型.文中附有某无人机上垂尾有限元模型修正的实例.根
随着塑料制品在工业和民用上的不断应用和普及,注塑机的市场需求也不断地在提高。注塑机是一种"私人定制化"很高的产品,如何快速有效的实现客户的需求一直是一个大问题。本文
第三腰椎横突综合征是指过长的第三腰椎横突受到反复牵拉损伤而引起的局限性压痛及一系列综合征。主要表现为腰痛、腰臀痛和腰腿痛,是临床常见疾病之一。祖国医学中虽然没有
多约束服务质量(QoS)路由是要求在多个约束条件下计算满足所有独立限制条件的可行路径.将这种NPC问题转化为一种带约束条件的多目标优化问题,根据多目标遗传算法的智能优化原
职业倦怠是近年来西方职业压力和心理健康研究中较为流行的一个概念。已有的研究表明,教师是职业倦怠的高发人群。教师职业倦怠将会对教师本人、学生、学校乃至整个社会产生