论文部分内容阅读
混合模型聚类是一种基于概率的生成式聚类方法,通过概率分布对文本生成模型进行建模,通过统计上的推理算法得到模型参数以及文本分配概率。目前,混合模型文本聚类的研究主要集中在对模型结构以及推理算法的改进上,对文本特征的改进研究相对较少。文本表示是文本聚类过程中最为基础的环节,所用的文本特征对于文本的表征能力越强,文本聚类的效果越好。因此,本文将从文本表示入手对混合模型聚类进行改进。对于学术文献而言,文本特征除了最为主要的文献正文之外,还包括引文。学术文献间的相互引用代表了知识的流动与传播,也蕴含了丰富的文献间关联信息。诸多实证已经表明,引文特征的引入对于文本聚类效果有一定的改善。但是目前对引文特征的应用主要基于传统引文分析的思想,即对信息量较少的引文著录信息的分析。随着自然语言处理技术、文本挖掘技术的发展,全文本引文分析的方法越来越吸引了研究者的注意。学界已经开展了包括引用位置、引用频次以及引文上下文等分析,挖掘了引文所涉及的较为全面的信息。基于全文本引文分析方法,本文提出了将加权引文特征应用于文本聚类的思想,即在传统的引文著录信息的基础上,结合引用位置、引用频次以及引文上下文对引文特征进行加权处理,以期能够更加准确、充分地表征文本。在实证研究中,本文着重从引用频次(引文在文献中被反复引用的总频次)的角度对传统引文特征进行加权改进,并将其与混合模型文本聚类相结合以改善聚类算法。本文主要的研究内容及结论为:1、从文本中抽取出引文具体被引用的频次,对引文特征(包括引用关系特征与引文标题特征)进行加权,实验发现,经过频次加权的引文特征相比传统的引文特征在混合模型文本聚类中能得到更好的聚类效果,引用频次能够改进传统的引文特征;2、将引用关系特征与词项特征相结合用于混合模型文本聚类,实验发现,引用关系特征是词项特征的一种重要补充,两者的结合可以较为显著地改善文本聚类效果;实验中保留高频引用关系(即去除频次为1和2的引用关系),可以得到更优的聚类效果;3、将引文标题特征与正文词项相结合用于混合模型文本聚类,通过对标题(Title)、摘要(Abstract)、正文(Body)以及引文(Reference)的词项赋予不同的权重,研究各位置词项对于文本表示的不同价值,实验发现,引文题名特征的重要性介于摘要和标题之间,基于本数据集四者之间的最优权重为4:2:1:3;4、通过对各个簇的聚类结果深入分析后发现,引文特征对于文本集中存在主题交叉的簇有积极影响,引文特征有助于强化簇间的区分度,从而增强聚类算法对簇的甄别,进而提高聚类质量。本文对加权引文特征在混合模型文本聚类中的应用进行了初步的探索,实验证实该特征可以改进聚类效果,本研究对后继的加权引文特征的深入研究与应用提供了借鉴。