论文部分内容阅读
多词单位是由两个或多个单词组成的独立的语义单位。多词单位的发现和使用在词典编纂、语言翻译和信息检索等领域有着重要的作用。发现多词单位的主要途径是从语料库中进行抽取。目前已经出现了很多从语料库中抽取多词单位的研究。抽取方法以统计学和语言学的知识为设计依据,近些年来也出现了一些数据挖掘算法的应用。本文介绍了研究者们在多词单位抽取算法中的一些工作,包括多词单位的评分和选择。将评分算法根据它们的设计依据划分为三类,对它们进行总结分析,并用实验进行了验证。本文还介绍了多种评分算法的组合方法,使用这些组合方法可以互补各种评分算法,达到更好的抽取效果。