论文部分内容阅读
信息化时代的今天,网络文本呈现出海量的特性,从搜索到的海量文本中提取有效信息或获取当前热点信息,需要对文本聚类,使同一个文本簇中的文本间相似度尽量的高,不同簇中的文本间相似度尽量的低。在没有先验知识的条件下,这是一个无监督的学习过程。协同聚类是对向量空间模型中的行和列对象同时聚类,或者交替进行,最后迭代到收敛。文本聚类表示为向量空间模型,此模型的行为文本,列为特征词属性。层次协同文本聚类是将文本和特征词对象通过层次聚类方法进行聚类。由于文本集是海量的、高维的数据集,因此,如果把文本对象和特征词对象同时作为叶子节点用层次聚类处理,叶子节点将会呈现出海量的特性,并且忽略了特征词之间的语义关系,所以层次协同聚类面临低效和准确性降低。同时,半监督聚类可以利用少量的先验知识来指导聚类过程,不仅可以提高聚类的效率,而且可以提高聚类的精度。本文首先对文本进行收集和预处理,分析和评价传统的权重计算模型的优缺点,然后通过曲线拟合的方式对权重计算模型进行改进,克服了传统权重模型的缺点,实验表明改进模型提高了聚类的质量。本文用基于成对约束的半监督聚类方法,将文本数据集中出现的特征词聚类,然后将每个簇中的特征词合并为一个新的特征词簇属性,不仅可以降低向量空间模型的维度,且可以相似特征词合并,减少了近义词引起的误差。此方法是通常先找出特征词库中的成对约束集,再用K最近邻近集的方法对成对约束集进行扩充,聚类后将每个簇中的特征词合并成一个新的属性。对文本数据集直接运用层次协同聚类而不考虑文本间的语义关系和特征词簇间的语义关系,把文本对象和特征词簇对象看做是独立的不相关的数据对象是不够全面的。本文通过计算文本之间的相似度和特征词之间的相似度构造出协同矩阵,然后利用此协同矩阵对文本进行层次协同聚类。实验结果表明,此方法的效率和精度有较大提高。