论文部分内容阅读
词义消歧一直是计算语言学领域的一个重要研究课题,其对机器翻译、信息检索、内容和主题分析、文本分类、语音识别等领域有着重要的影响。本文以北京大学计算语言学研究所开发的较大规模的《人民日报》词义标注语料为基础,从以下几个方面进行了研究:
提出一种递减的特征选择算法考察各种上下文知识的组合对有指导词义消歧的影响。实验表明,丰富的上下文知识有利于词义消歧。采用支持向量机方法进行词义消歧,剖析了支持向量机方法的两个重要方面:核函数的选择和多类别支持向量机方法。通过实验表明,相对于其他核函数而言,线性核函数具有训练速度较快,正确率较高的特点。在目前的多类别SVM方法中,一次优化决策的方法训练速度快,易于构造,且消歧效果较好。
通过上述研究,本文采用线性核、一次优化决策的多类别支持向量机方法对3个月的《人民日报》语料进行词义消歧,达到了83.82﹪的正确率。实验也表明使用支持向量机的方法进行词义消歧的效果比最大熵方法好,但是支持向量机方法也有训练速度较慢的缺点。
本文还对SENSEVAL-3的中文评测语料进行词义消歧评测,支持向量机方法达到了64.91﹪的正确率,比最大熵方法提高了2.38个百分点。表明支持向量机方法在小样本情况下具有较明显的优势。