基于最大频繁项集K-means的文本聚类算法研究及应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cwhgh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的发展,网络信息正在以几何级速度迅速膨胀。如何通过信息融合进行在线信息的处理,特别是进行数据量巨大的文本信息处理,已成为一个亟待解决的难题。文本聚类作为一种无监督的信息组织方法,在这一难题中发挥着重要的作用。文本聚类通过将大量文档划分到几个有意义的分组,使得同一个分组中的文档拥有更高的相关度,而不同分组间的文档则尽可能不同,从而达到对文档信息进行有效的组织的目的。本文研究了现有的文本聚类算法,分析并总结了每个算法的特点。引入关联规则中频繁项集的概念,研究基于频繁项集的聚类算法。最终提出了一种新型的采用最大频繁项集与K-means相结合的二次聚类算法,改进了算法的聚类效果。  本文通过建立文档数据库模型,进行最大频繁项集的挖掘。将包含相同最长最大频繁项集的文档聚集在一起,形成初始类簇。接着,提出一种新的基类选择算法筛选部分初始类簇,作为K-means算法的初始聚类中心。考虑到数据分布不均和类簇大小不一的特点,本文提出了二次聚类的思想:首先,通过最大频繁项集 K-means算法进行一次聚类,得到特征明显或规模较大的类簇,保存他们的类簇中心;然后,将这些类簇中的文档从文档数据库中去除,再次使用基于最大频繁项集的算法选择剩余文档的聚类中心。最后,结合一次聚类结果中的类簇中心,对所有未分类的文档进行 K-means聚类。本文的文本聚类算法的改进和创新点主要包括以下几个方面:  (1)使用文档间共享的最长最大频繁项集进行初步聚类,提出最大频繁项集对类簇的表达能力的概念,设计准则不等式,进行基类的筛选。  (2)在一次聚类中,通过设置最小相似度阈值,改进了传统的K-means算法。同时结合二次聚类思想,达到尽可能识别所有类簇,减少由于类簇识别不完全而导致的误分类。  (3)整个聚类过程回避K-means聚类算法需要输入预定义类簇数目的难题,通过在类簇生成和选择的过程中设置参数的方式,达到自动获得类簇个数的目的。  最后,论文在多个语料集上验证本文提出的聚类算法。通过与同类算法的对比实验表明,本文的聚类算法在聚类纯度和F-值两个指标上都有5%-10%的提高;同时,实验也表明,本文的聚类算法能够得到与实际情况相近的类簇数目。
其他文献
人脸识别技术是当前生物特征识别领域的一个研究热点。光照不足、姿态和表情变化等因素使2D人脸识别受到了很大的限制。相比2D图像,3D人脸模型不受光照条件的限制,且提供了更
基于WLAN的VoIP技术与目前有线网络上的VoIP技术有很多相似之处,但由于无线网络自身的特点,其对实时业务的支持与有线网络相比还有较大的差距,这导致一个WLAN所能支持的同时
在机器学习领域的众多实际应用中,获得标记样本通常需要付出较大的代价。在一些情况下,获得所有的类标记是非常困难的。近年来,半监督学习已经成为机器学习领域的一个研究热点。
随着互联网的高速发展,网络信息成爆炸式增长,百科知识已经成为人们获取知识的重要手段。人们对垂直化知识的需求对百科知识库提出了新的要求。目前网络上的百科知识库都是由
随着金融活动的复杂化,金融市场与金融交易规模的日益扩大,金融机构面临的风险也日趋加大。自2007年8月爆发的全球金融危机,许多著名的国际金融机构都因对资产的风险管理不足
时至今日,海量数据时代的来临已经毋庸置疑。高速计算技术和先进的自动感应技术使得产生和收集大量数据成为可能,各行业获得数据量呈指数增长趋势。在最近的20年里,全球总的
入侵检测系统的开发旨在发现具有安全隐患的入侵行为,高水准的黑客技术和利用社会工程学等手段的入侵,使得传统安全设备无法完全阻止不断增加的入侵行为。入侵检测系统在大型
近些年来,基于角色的访问控制技术(Role-Based Access Control, RBAC)作为一种高效的安全控制策略得到广泛的关注,特别是在拥有用户众多的大型企业中得到青睐。RBAC策略在简
现代处理器上提供了多种功耗调节机制,使用这些技术可以在运行时根据需要调节处理器功耗以适应不同的应用场合和需求。功耗封顶技术是其中一项重要的应用。控制部件功耗可以
随着信息技术的飞速发展,人们对计算机的要求不再是仅仅满足于大量的计算以及海量的数据存储查找,人们希望计算机能够模拟人类的某些能力,于是计算机的应用范围不断拓宽。其