基于成对约束的半监督文本聚类算法研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:liqund7h
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的快速发展,人们在日常生活和工作中需要处理越来越多的文本,怎样才能快速有效的处理大量的文本成为一个亟待解决的问题。文本聚类是文本处理的重要技术。传统的文本聚类由于不需要事先对文本进行类别标注,也不需要训练过程,因此具有较高的自动化处理能力和一定的灵活性。然而,在实际应用中,我们在得到大量无标签样本的同时,也很容易得到少量有标签的样本,在这种情况下,传统的文本聚类算法便不能利用少量的标签信息来提高聚类性能。由于半监督学习能够同时利用无标签样本和有标签样本进行学习,目前正受到越来越多研究人员的关注。本文对文本聚类和半监督聚类算法进行了研究,为了提高文本聚类的性能,把半监督聚类算法引入到文本聚类中。半监督聚类算法对聚类性能的提高在很大程度上取决于半监督聚类算法所使用的监督信息。因此,监督信息的选取非常关键。针对这个问题,本文构造了一种主动选取成对约束的方法,首先利用模糊超体积找出划分最模糊的簇,然后在其边界上选出若干个样本,对每一个被选中的样本,在其相邻簇中找到与它最近的样本,由这两个样本构成一个成对约束。该方法能够选择具有较好指导作用的成对约束信息。为了能够利用少量的监督信息提高文本聚类的性能,本文提出了一种新的基于成对约束的半监督文本聚类算法。首先利用潜在语义分析方法对文本特征空间进行降维,然后在聚类过程中,利用新构造的约束选取方法主动地选取成对约束信息,并利用选取的成对约束信息指导文本聚类。为了验证本文提出的新的监督信息选取方法和基于成对约束的半监督文本聚类算法的有效性,本文在中文文本聚类实验平台上进行了多组实验,实验结果表明本文提出的新的监督信息选取方法能够选取更具指导意义的监督信息,本文提出的半监督文本聚类算法能够利用少量的监督信息有效的提高文本聚类的性能。
其他文献
文档图像的版面分析是文档信息处理系统的重要组成部分,以及复杂文档OCR必不可少的环节,它是实现纸质文档数字化的重要环节。版面分析技术广泛应用于文档自动检索、办公自动
辨识和分析组织特异性基因及其调控关系对理解生物体的内在活动机制、具有针对性的疾病诊断和药物设计具有重要的作用。然而现今利用现代计算技术挖掘基因表达的组织特异性及
交通标志是道路交通系统中的重要组成部分,它为驾驶员安全舒适的驾驶提供重要信息。交通标志自动识别系统的研究对辅助驾驶系统和智能车系统具有重要意义。   交通标志识别
中间面对于薄板类零件CAE分析计算及CAE应用中六面体网格生成均有重要意义。本文针对CAD模型(B-Rep模型),研究了变(等)壁厚CAD模型的中间面生成技术。鉴于目前研究中对于变壁
信号分类一直是研究热点之一,如何对信号进行准确分类也是众多研究者追求的目标之一。分类在故障诊断和纹理图像检索中具有重要作用,在故障诊断运用中,可以通过对故障信号的
SaaS模式作为一种完全创新的软件应用模式,已经被认为是软件行业发展的无可争议的方向。从用户方面来看,SaaS软件拿来即用、无须维护、按需使用、随处可用、风险减小、成本降
无线射频识别(radio frequency identification,简称RFID)是一种新兴的自动识别人和物体的无线射频技术。具有标签存储容量大、识别距离远、可同时识别多个被标识物体、识别
基于 agent的模型(ABMs)在人工智能及虚拟现实等领域一直都是在试图模仿人类的行为,在一个人工环境中,为了产生许多社会科学家可以理解的可能现象,agent的决策模块要互相影响并进
随着计算机技术的迅速发展,人们对计算机能够解决的问题的要求也越来越高,随之而来的是更多复杂大型的软件投入了使用,软件维护问题也逐渐成为了当前软件产业面临的重要课题
随着传感器技术、嵌入式计算技术、无线通信技术和分布式信息处理技术的发展,无线传感器网络越来越受到人们的重视。无线传感器网络是一种由大量的微型传感器节点形成的自组