半监督层次协同文本聚类研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:coolwater_3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息化时代的今天,网络文本呈现出海量的特性,从搜索到的海量文本中提取有效信息或获取当前热点信息,需要对文本聚类,使同一个文本簇中的文本间相似度尽量的高,不同簇中的文本间相似度尽量的低。在没有先验知识的条件下,这是一个无监督的学习过程。协同聚类是对向量空间模型中的行和列对象同时聚类,或者交替进行,最后迭代到收敛。文本聚类表示为向量空间模型,此模型的行为文本,列为特征词属性。层次协同文本聚类是将文本和特征词对象通过层次聚类方法进行聚类。由于文本集是海量的、高维的数据集,因此,如果把文本对象和特征词对象同时作为叶子节点用层次聚类处理,叶子节点将会呈现出海量的特性,并且忽略了特征词之间的语义关系,所以层次协同聚类面临低效和准确性降低。同时,半监督聚类可以利用少量的先验知识来指导聚类过程,不仅可以提高聚类的效率,而且可以提高聚类的精度。本文首先对文本进行收集和预处理,分析和评价传统的权重计算模型的优缺点,然后通过曲线拟合的方式对权重计算模型进行改进,克服了传统权重模型的缺点,实验表明改进模型提高了聚类的质量。本文用基于成对约束的半监督聚类方法,将文本数据集中出现的特征词聚类,然后将每个簇中的特征词合并为一个新的特征词簇属性,不仅可以降低向量空间模型的维度,且可以相似特征词合并,减少了近义词引起的误差。此方法是通常先找出特征词库中的成对约束集,再用K最近邻近集的方法对成对约束集进行扩充,聚类后将每个簇中的特征词合并成一个新的属性。对文本数据集直接运用层次协同聚类而不考虑文本间的语义关系和特征词簇间的语义关系,把文本对象和特征词簇对象看做是独立的不相关的数据对象是不够全面的。本文通过计算文本之间的相似度和特征词之间的相似度构造出协同矩阵,然后利用此协同矩阵对文本进行层次协同聚类。实验结果表明,此方法的效率和精度有较大提高。
其他文献
路面破损检测是高速公路养护与管理的重要工作,依靠传统手工检测路面破损程度的方法已不能满足道路养护与管理工作的快速发展需求,随着光电技术及计算机技术的高速发展与普及,基
随着B/S架构的出现,大大程度上降低了信息管理系统的开发难度,也使用户感到系统应用的方便和快捷,促进了MIS系统的发展和应用。如何实现基于B/S架构系统的可变信息标签动态打印
数字图像作为信息传递的一种有利载体,通过其信息量大和形象逼真等特点,广泛存在于各种网络环境及现实生活中。但是各种高级图像处理算法以及相应图像处理软硬件的出现,使得
一致性问题是移动白组网的基础性问题,利用不可靠故障检测器解决一致性问题有很多的方案,按照适用范围可以分为具体协议和通用协议。这两种协议具有不同的特性,各有优缺点。
学位
数据挖掘就是从海量数据中提取具有潜在价值的信息,是目前信息管理领域和数据库技术最前沿的研究方向之一。聚类分析作为数据挖掘技术中的重要组成部分,已经广泛应用于模式识别
DDoS攻击作为目前主流的网络恶意行为之一,对互联网的正常运行造成了严重的危害。本文的研究工作围绕DDoS攻击的检测和响应展开。检测工作基于网络边界路由器提供的流记录信
随着电子信息技术的飞速发展,汽车电子已成为现代汽车工业新的增长点,扮演着越来越重要的角色。同时,汽车电子系统的复杂性进一步加大了汽车电子软件的开发难度,普遍需要一个标准
经典粗糙集理论研究的对象是完备信息系统,完备信息系统中所有的属性值都已给定的且是单一的。然而,现实世界中的大量信息是不完备的,这些信息的属性值往往是未知的或是非单值的
一台机器履行职能的能力通常与人工智能有关,比如推理、规划、感知、认知、学习、理解和解决问题能力,在计算机学术界机器能力的研究是最有趣的研究领域之一。同时也是人工智能