大数据集增量式模糊聚类算法

来源 :湖南大学 | 被引量 : 0次 | 上传用户:asd03071128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是一种常用的数据挖掘算法,它通过将数据划分为多个不同的集群,同一个集群中的元素相识度较高,而不同集群中的元素相似度较低,从而挖掘出数据中的有用信息。首先,本文分析了聚类分析中的国内外研究现状,对增量式模糊聚类方法所存在的主要问题进行了阐述,重点对增量式模糊聚类方法中的集群的中心点的选择问题进行了研究。针对以往算法在中心点选择中存在的问题,在增量式模糊聚类算法IMMFC的基础上,提出了一种基于最小权重阈值的增量式模糊聚类算法,以提高算法的准确度。第一步,算法将数据分为多个数据块,并对每一个数据块进行模糊聚类;第二步,从每个数据块中的每个集群中选择多个中心点,中心点个数为该集群中对象权重之和大于给定阈值的最少对象个数;第三步,将选择的所有中心点作为最后一块数据块,对其进行模糊聚类,得到最终的中心点。通过两组实验对算法的准确度和F值进行了测试。实验结果表明,算法在数据块规模大于全部数据的10%时表现优于IMMFC。本文所提出的算法有以下特点。首先,算法将数据分为多个小的数据块,解决了因数据量太大而无法一次性的放入内存中的问题;其次,算法为每个数据块中的每个集群灵活的确定中心点的个数,一个集群中的中心点权重之和不小于某个阈值,从而避免了当某集群中元素权重普遍偏低时选择的中心点不足以代表该集群的情况。同时,算法也有缺点。当数据块规模为所有数据的10%时,算法表现不如IMMFC。其次,本文对数据的预处理工作做了详细的研究,并根据本文增量式聚类算法的特点,提出了适合该算法的距离矩阵生成算法。最后,本文将提出的算法应用到了一个实际案例,即Twitter热点话题的挖掘当中,这个应用案例给出了增量式模糊聚类算法在Twitter热点话题挖掘中的一般步骤以及解决思路,可以为算法的应用提供一定的参考。
其他文献
相位信息是滤波器的重要技术指标,是信号输出质量的主要影响因子,同时也是声纳接收机不可或缺的影响指标之一。在水声接收机中含有滤波模块,只要有滤波器的出现势必会造成相
浅埋地下水位直接影响着地表温度、植被归一化指数(NDVI)、地表能量平衡系统组份的大小以及分布特征,同时又间接决定了地表蒸散发的强弱。而遥感探测具有数据量大,覆盖范围广
图的电力控制集问题来源于电力网络系统中如何选择安排最少检测仪器的节点位置问题,电力控制集问题是控制集问题延伸出的一个重要研究分支。设G=(V,E)为一个简单图,s(?)V为一个顶
研究目的回顾性分析308例次多发性硬化患者的中医四诊信息,探索多发性硬化的中医证候分布规律,并以网络药理学为基础探索中药治疗MS的机制;验证《EDSS电话评分表·中文版》的可行性,探索多发性硬化患者新的随访模式;为中医药治疗多发性硬化的临床及科研工作提供新的思路。研究方法1、回顾性收集308例多发性硬化患者的四诊信息,运用因子分析与聚类分析相结合的方法对调查结果进行分析,探索MS的中医证候分布规律
为落实《住房城乡建设部关于加强历史建筑保护与利用工作的通知》等国家相关政策中对历史建筑的要求,进一步加强历史建筑的保护利用,实现延续其物质精神功能,充分发挥其当代
本文是B.Klartag关于Riemann流形上针状分解的工作的综述,这套理论是凸几何中局部化技巧在Riemann流形上的一种推广。其内容包括应变集上的针状测度分解,带积分控制条件的局
大肠杆菌O157:H7是一种低感染剂量,高致病性的食源性病原菌,人体感染后会引起出血性腹泻和肠炎,还可继发溶血性尿毒综合征、血栓性血小板减少性紫癜等疾病,严重时可致人死亡
由双交叉积相关理论,Hopf代数E能通过Hopf代数A和B进行分解当且仅当E同构于A和B的某些双交叉积.本文分类了所有通过两个广义Taft代数Tn,dn(?)和Tm,dm(q)进行分解的Hopf代数.首先
2016-2019年间在皖西山区对653份水稻品种进行了对稻瘟病和稻曲病的抗性鉴定,并评价了水稻品种对这两种病害的抗性水平。主要研究结果如下:1)根据供试水稻品种对叶瘟病和穗瘟病的抗性鉴定结果,以综合抗性指数评价不同品种水稻对稻瘟病的抗性。结果显示:经鉴定的640份水稻品种均未对稻瘟病表现出高抗,其中389份水稻品种表现为抗病,167份水稻品种表现为中抗,84份水稻品种为感病或者高感。B、WJ、7
局部修复码(locally repairable codes,简称LRC)是一类纠删码,最近被提议用于分布式存储系统中的数据存储.2016年,夏树涛等人指出了一类有多个修复集合的二元单校验局部修复