论文部分内容阅读
中文分词是中文信息处理的一个基础环节。在中文信息检索的文本处理阶段,也常用到这项技术。学术界关于分词技术的研究一直比较多,但是目前的研究大多是通用的分词算法,专门针对信息检索应用的分词技术研究相对较少。 本文首先介绍了中文分词的难点,以及目前常用的一些切分算法。然后综合分析了分词技术对中文信息检索的影响,在此基础上系统地提出了适用于信息检索应用的分词技术的特点,并且根据这些特点给出我们自己的分词算法。 由于面向大规模信息检索的分词算法对时间性能要求较高,我们的词典算法采用了双数组Trie树优化算法。该算法查询一个词语最多只需要进行n-1次整数相加,时间复杂度是O(n),n为查询词长度。我们的实验显示,无论是单纯的词语查询速度还是最大匹配切分速度,双数组Trie树算法都要比目前词典机制中常用的普通Trie树算法和双字Hash算法快。 歧义消除和未登录词识别是分词的两大技术难点。考虑到信息检索应用的特点,在歧义消除部分,对于交叉歧义和覆盖歧义这两类歧义,我们只处理前者,并在歧义位置用双字耦合度和t-测试差的线性迭加值来判断是否切分;对于后者,我们提出一种在查询扩展时处理的方法。未登录词识别部分我们则利用单字的成词位置概率,同时结合局部二元串频统计对所有命名实体和新词进行统一识别。 实验表明,该分词算法切分速度在CPU3.2G,内存512M的环境下能达到2MB/秒,比当前一些切分精度较高的分词算法如ICTCLAS要快很多;在同样检索系统下,和信息检索中常用的交叉二元切分法、分词中常用的最大匹配法和ICTCLAS相比,使用该算法后检索出的前10篇文档的准确率P@10分别提高了9%、11.4%和8.8%,前20篇文档的准确率P@20提高了13.2%、12.7%和7.5%。