论文部分内容阅读
国内外很多学者都在关注相关词自动识别研究,但基本上都是研究基于单一知识源提取相关词,本文则主要探讨基于多知识源的相关词自动识别技术与方法。
识别相关词实质上就是对词汇间关系的判定。不同的知识源从不同侧面反映了词汇关系:大规模语料库是大量真实文本的集合,是词汇的正规应用;释义词典中包含的是词汇的详细定义;而用户日志有了用户的间接参与,反映了用户视角的词汇关系。这三种资源中隐含的词汇关系各有侧重,互补性很强,因此,我们选定它们作为相关词提取知识源。
为了提高相关词识别的准确度和系统效率,我们首先对各种资源进行分词和去停用词处理。现有的分词算法可分为三大类:基于字符串匹配的分词方法,基于理解的分词方法和基于统计的分词方法。实验系统采用了逆向最大匹配分词算法,并在分词的同时过滤掉部分停用词,一定程度上减小了相关词提取过程中的计算量。
比较了几种常用统计量的统计效果,最后选用互信息来衡量大规模语料库中词汇间的相关度。因为大规模语料库的数据量非常大,统计大量词汇在语料库中的共现频次的运行时间过长,为了提高速度,我们建议对语料库建立多级索引并过滤掉频次差别悬殊的词对。在实验系统中,笔者借用北京新星快威数码技术有限公司的DIPS系统,为语料库数据快速建立索引,大大的提高了统计速度。
从词典释义中发现相关词,采用的是向量空间方法。因为词典中词条不全,我们提出为每对词汇依据词汇释义分词结果建立释义空间,用释义空间描述词汇向量,将计算词汇间相关度转化为计算向量间距离。实验结果表明,这种方法能够识别出大部分相关词,但是会漏掉少数释义不一致的同义词,为了解决这个问题,我们建议了两种方法:(1)模式提取;(2)引入大规模语料库中挖掘相关词的互信息方法。
根据用户日志数据的特点,笔者提出把同一IP地址的检索词聚成一条记录,然后将大规模语料库中的相关词挖掘方法移植过来。在最后的相关词整合过程中,因为英文检索日志中发现的相关词不能和中文相关词整合,笔者把从百度和北大天网中提取的相关词,与基于其它知识源提取的相关词整合。
分析实验结果,笔者发现,虽然面向相同的基本词汇集合,但是基于不同知识源提取的相关词之间的重复率很低,各个结果间的互补性很强,因此,结果整合非常有必要。文中提出两种整合途径:直接整合与加权整合。在实验系统中,通过直接整合途径得到了最后的相关词词表。