基于标记样本和相似度调整的K均值算法在文本聚类中的应用

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:jhl1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习领域的众多实际应用中,获得标记样本通常需要付出较大的代价。在一些情况下,获得所有的类标记是非常困难的。近年来,半监督学习已经成为机器学习领域的一个研究热点。半监督学习同时利用标记样本和无标记样本来指导学习过程,从而获得更好的学习性能。有关半监督学习的研究可大致分为两类,即半监督分类和半监督聚类。半监督聚类也就是无监督学习,就是使用少量的标记样本对无标记样本的聚类过程进行指导。本文对聚类的相关技术和半监督学习进行了研究,介绍了文本数据的预处理、距离公式、聚类算法评估准则以及几种k-means算法的扩展算法。  本文用随机选择的标记样本作为监督信息,并将标记样本转化为Must-link约束集和Cannot-link约束集,用于重构样本集合的相似度矩阵,重新确定样本之间的相似或不相似的标准。k-means++算法提供了一种有效的聚类种子的选择方法,这种方法的可以降低算法对聚类种子敏感的缺点,其聚类精度明显优于传统的随机选择种子的方法。本文在k-means++算法在初始质心的选择过程中加入了标记样本的影响,提出了一种基于标记样本和相似度调整的k-means算法,并在20-newsgroup和Spam两个数据集上进行了测试,实验结果表明本文提出的算法在聚类结果的精度和执行效率上比Seeded k-means算法和k-means++算法有更好的表现。
其他文献
网络流量异常指的是流量偏离正常模型。引起流量异常的原因有很多,比如恶意攻击、网络设备故障、正常的突发用户行为等。网络异常检测的目的就是及时检测出异常的发生,便于网
随着互联网的出现并不断发展,人们获取到的信息形式经历了从过去的文本、数字到如今的图像、语音、视频等多媒体的过程。当下三维模型在多媒体领域中的需求量大,该领域对三维
伴随着流媒体时代的到来,网络规模和应用获得了快速增长,为网络服务提出了新的挑战。传统的拥塞控制机制使用的是尽力服务模式,取得了一系列发展成果,为网络的健壮发展和性能
如何解决多企业间的快速互联协作一直是计算机网络研究中非常重要的研究课题。在目前网络技术迅速发展的背景下急需一种能为不同企业提供统一的快速互联协作机制的新型网络应
近年来,随着web2.0的迅猛发展,互联网不断扩展成一个拥有海量数据并且内容丰富的信息载体。并且涌现出一些新型的,与用户交互性强的知识服务形式,其中典型的服务包括百科知识
随着信息技术的快速发展,访问控制已成为保护网络信息安全的一种重要策略。基于角色的访问控制(RBAC)是一种先进的访问控制技术,在各企业组织中得到了广泛应用。职责分离(SoD
装箱问题是一类非常典型的NP-hard问题,具有很重要的理论价值与实际应用意义。这类问题的共同目的就是把若干“物体”放入指定的“箱子”中,而最终使用的“箱子”数最少。如
学位
早期智能规划研究一直集中在“封闭世界”假设之下的经典规划领域,然而,很多实际问题并不满足这样的假设条件,因此,一些学者将目光投向了不确定性规划的研究,其中概率规划的
人脸识别技术是当前生物特征识别领域的一个研究热点。光照不足、姿态和表情变化等因素使2D人脸识别受到了很大的限制。相比2D图像,3D人脸模型不受光照条件的限制,且提供了更
基于WLAN的VoIP技术与目前有线网络上的VoIP技术有很多相似之处,但由于无线网络自身的特点,其对实时业务的支持与有线网络相比还有较大的差距,这导致一个WLAN所能支持的同时