论文部分内容阅读
词的分类问题是语言学和自然语言处理中十分重要的研究问题。由一些语义相近的词组成的词类(或词聚簇)可以看成是纷繁的个别词现象到语言的一般概念的映射,而这些概念是更加本质的,更具有一般性和稳定性。目前,词分类的主要方法包括两类:一类是基于语言学家的主观判断,通过语言学家手工地构造出分类词典,给出每个词的同义词或近义词;另一类是基于机器的自动聚类。本文研究的主要内容就是基于无指导的汉语词聚类及其相关应用。基于无指导的词聚类是通过在大规模的语料库中统计词的上下文信息,并利用传统的聚类算法最终实现词的自动聚类。
传统的聚类算法主要分为层次聚类和划分聚类两种方法。划分聚类算法是一种局部最优算法,初始点选择的好坏严重影响聚类性能。因此,本文在词聚类这一具体任务中,利用词在文本类别中的分布提出了一种新的初始点选取方法,实验结果显示其有效地改善了划分法词聚类系统的性能;层次聚类算法的主要不足是聚类过程中已做的处理不能被撤销,类之间也不能交换对象,一旦一组对象被合并或者分裂,而后进行的处理将在新生成的类上进行。因此,类间距离计算的准确程度是影响层次聚类性能改善的最重要因素。本文提出了一种新的用于计算类间距离方法K-LinK。该方法通过有效地利用类的形状、密度等重要信息提高类间距离的准确性,由此改善层次聚类算法的性能。
本文通过对实验结果的分析,讨论了上下文窗口大小对词聚类结果的影响;讨论了特征选择、权重计算对聚类结果的影响;讨论了相似度计算方法、聚类算法对性能的影响。在此基础上确定了聚类过程中的相关参数,最终将词聚类的处理结果应用于文本聚类,解决了文本聚类中文本对象的高维和稀疏的问题。