论文部分内容阅读
作为一种基于无监督学习的知识获取方法,文本聚类是文本挖掘领域的一项重要技术。文本聚类在文档组织、信息检索、话题检测与跟踪等诸多领域都得到了普遍的应用,受到研究者的广泛重视,具有重要的研究价值。
如何提高聚类质量是当前文本聚类研究面临的最大挑战。本文的目标是使用有监督机器学习方法集成不同的相似度计算方法和各种语言学知识,通过优化相似度计算来提高文本聚类质量。
本文在多个标准测试集上,对文本聚类的相似度计算方法进行了系统研究,主要取得了如下一些研究成果:
(1)研究了基于统计语言模型的文本聚类方法,并与向量空间模型进行了对比。比较了几种常见的数据平滑方法在文本聚类中的效果。针对统计语言模型的参数估计易受文档集影响的特点,提出一种把背景语料库的分布知识融入文本聚类计算的方法,有效地提高了文本聚类效果。
(2)将有监督的机器学习方法引入文本聚类,提出一种多特征集成的相似度打分方法,采用两种有监督学习方法训练打分系统的参数:支持向量机的方法和启发式搜索的方法。在此基础上,提出对不同特征相关度值进行规格化处理以及对参数搜索空间进行限制两种改进措施,提高了参数学习效率。实验结果表明,该打分系统可以有效地实现多特征的融合,并提高文本聚类效果。在此基础上引入各种语言学知识和语义知识,进一步改进文本聚类效果。把有监督的机器学习引入无监督的文本聚类,为提高文本聚类质量提供了一种新的研究思路。这是本文的重要创新之处。
(3)将语义关系与文本聚类相结合。本文将中文语义词典知网用于文本聚类,在实验多种语义概念与向量空间模型的结合方法的基础上,提出了一种语义关系和词语特征结合的多特征集成方法。同时,为了解决语义概念映射时概念映射级数与噪音同步增长的问题,提出一种基于概念相似度的权重调整算法。实验结果表明:两种方法均可以有效改进文本聚类效果。
(4)研究了多种文本表示单元在中文文本聚类中的效果,发现词、单字和双字特征是最好的三种文本表示单元。单字、双字和词三种特征具有互补性,但简单地把特征混合叠加到一起对聚类效果没有改善。本文提出一种基于线性加权的多特征集成方法,把三种特征融合到一起,有效地提高了文本聚类效果。
(5)将语言学知识引入文本聚类。本文比较了不同词类特征对于文本聚类的影响。实验结果表明:名词和动词是最重要的两种词类特征,仅用这两种特征就可以取得比较好的聚类效果。使用词类特征可以过滤掉很多特征,客观上起到特征选择的作用。本文将有监督机器学习和各种语言学知识引入文本聚类的研究与实践,为提高文本聚类质量的研究开拓了新的思路。