基于SEAM算法的集成聚类及在文本应用中的研究

被引量 : 2次 | 上传用户:uj_mosquito12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术和数据库技术的快速发展,数据挖掘技术应运而生。聚类分析是数据挖掘中的重要分支之一,是一种数据划分的重要手段和方法。聚类的应用是非常广泛的,无论是在商务领域,还是在生物学、Web文档分类、图像处理等其它领域,都得到了有效的应用。虽然有些聚类算法已经得到了广泛应用,但由于一般聚类分析算法对数据集都有诸多的限制,所以很难找到一种算法适合所有的数据集。由此,聚类集成算法应运而生。聚类集成是将多个对同一组对象的不同划分进行合并,而不使用对象原有的特征。实验证明,该方法能够得到比单一算法更为优越的结果,但集成聚类远未达到成熟的地步,如关键参数的确定、共识函数的设计等问题。在前人工作的基础上,本文所做的工作如下:1.在深入了解集成聚类算法的基础上,设计出一种新的集成聚类算法,基于SEAM(Squared Error Adjacent Matrix)算法的集成聚类,简称为ESEAM算法(Ensemble method based on SEAM)。首先得到数据集的多个聚类结果,即得到聚类成员的集体;然后根据聚类成员的集体,得到可以反映原数据集分布的一个相似矩阵;最后,将SEAM算法应用在这个相似矩阵中,得到最终的聚类划分。文中通过实验验证了该算法的有效性。2.本文还对聚类分析的应用领域之一文本挖掘进行了研究。将文中所提出的ESEAM算法应用于文本中,并对实验结果做了分析。由于集成聚类算法可以集成多个聚类算法得到的结果,而在给定相似矩阵的情况下,SEAM算法可以自动确定聚类数,所以ESEAM算法避免了算法选择和聚类数选择的双重问题。
其他文献
针对混合动力汽车和纯电动汽车动力改良问题,对汽车尾气排放,维持电池SOC以及达到驾驶员所需求的汽车动力。主要应用复杂的模糊控制系统,将模糊控制器加入到含有内燃机,逆变
本文简单分析了庄浪县境内河道现状、治理、砂石储量及开采情况,分析了管理中存在的问题,并提出了解决问题的措施和对策。
央视席卷全国的《中国诗词大会》栏目,以强大的吸引力引导着中华民众学习古典诗词、学习传统文化、品味传统美德的热潮,也将为各种媒体进行更多更深入的中华优秀文化的挖掘作
野战装备集合封存技术具有体积小、重量轻、成本低和使用可靠等优点,能够解决多种、多个野战装备的防潮封存问题.通过对温湿度作用机理、装备防护封存基本技术的分析,提出了
考试是教学评价的重要形式。研究考试,在初中道德与法治教学中非常重要。教师通过研究考试,有利于分解教学目标、设计教学情境、强化学生能力、培养学生学科素养。考试研究更
可持续生计重建是水库移民问题的核心与关键。通过对南水北调丹江口水库外迁农村移民安置初期的问卷调查,分析移民的生计资本状况及其对生计结果的影响,研究表明:移民生计资
研究了 Na Cl对豫棉 1 5种子发芽和幼苗生长的影响 ,结果表明 :低浓度的 Na Cl( 0 .4%以下 )能促进种子萌发 ,而高浓度 ( >0 .7%)时则显著抑制 ;无论盐浓度高低 ,都对棉花幼
阐述了航空电子在机载设备中的重要性;介绍了航空电子设备发展的历程;叙述了国际合作对发展航空电子的作用;指出航空电子综合技术是航空电子发展的必然趋势.
计算得到2013年安徽省单位面积生态系统服务功能价值表,估算2009~2013年庐江县土地生态系统服务价值,并分析土地利用/覆被变化对其生态服务价值的影响。研究表明:(1)土地利用
本文围绕美国严格产品责任制度,通过历史研究的方法,从该制度在美国的产生、发展以及变革的历程入手,分析了严格产品责任制度在美国产生并不断发展的背后原因以及该归责原则