基于局部分布的自组织增量聚类算法

来源 :南京大学 | 被引量 : 0次 | 上传用户:yucunjiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘引起了信息产业界和整个社会的极大关注,其主要原因是数据挖掘可以将大量的数据转换成有用的信息和知识。聚类分析是数据挖掘的一种基本技术,它采用无监督的方式从大量数据中提取出有用的信息和知识。但在信息时代,数据量呈爆炸式增长,这使数据的存储和信息的提取面临重大的挑战。特别是在很多终生学习的应用中,复杂多变的不平稳数据环境,更让聚类分析陷入了困境。本文提出一种基于局部数据分布的自组织增量学习神经网络(Local-SOINN),在进行聚类分析时有如下优点:·实现样本增量、类增量或者更复杂环境中的学习;·自动报告最适宜的聚类个数;·刻画出原始数据的拓扑结构;·保存原始数据的局部分布信息;·找到任意形状的聚类;·对噪声具有鲁棒性。由于我们的算法是以在线"1-pass-throw"的方式进行训练的,所以在一定程度上缓解了海量数据的存储问题。Local-SOINN还可以增量式地学习,在不破坏已学知识的前提下自主学习新的知识,这样就能够胜任在不平稳数据环境下的聚类任务。另外我们的模型还可以刻画原始数据的拓扑结构,这在数据压缩、数据可视化方面有很大的潜在应用前景。总的来说,Local-SOINN将原始数据信息保存在节点及表示其邻居关系的邻接表中,节点信息用来刻画该节点周围的局部数据分布,而节点间的邻居关系用来表示数据的整体拓扑结构。还采用了改进的马氏距离作为度量准则,引入自适应调整的阈值策略和迭代的信息更新方式,达到在线增量学习的要求。此外,Local-SOINN通过合并和去噪操作,去掉网络中的冗余和噪声节点,使模型更好的模拟原始数据从而实现自动聚类。如果将模型中的节点看成PCA单元,Local-SOINN可解释成基于Local-PCA思想的一个实现。从另一个角度看,采取马氏距离作为度量意味着我们的算法是一个以增量方式工作的高斯混合模型(GMM)。这些联系为我们的模型奠定了坚实的统计理论基础。
其他文献
李千军等(2010)采用PCR-RFLP法对192头大白猪和192头长白猪进行雌激素受体基因(ESR)、促卵泡素β亚基基因(FSHβ)和骨桥蛋白基因(OPN)3个与繁殖性能相关的基因多态性检测,并对不同基
渭华照金精神表述为"忠党爱民、教育引领、务实求真、快乐奋斗"。核心理念是坚定地创业创新。形成于20世纪二三十年代西北革命根据地创建、发展的历史进程,是党的思想体系与
本实验通过使用1-甲基-3-硝基-1-亚硝基胍(NTG)诱变处理对数期嗜酸氧化亚铁硫杆菌(简称At.f菌),研究了同一时间段内与不同时间段内的不同浓度的诱变剂和不同诱变处理时间对诱
在X射线衍射等分析研究基础上 ,进一步用透射电镜对半封闭室内长期沉积的大气降尘进行观察 ,提供了合肥地区大气降尘物相组成和各种物相形貌特征信息 ,揭示合肥地区大气污染
<正> 徐开垒在《从林黛玉的性格描写看曹雪芹的现实主义创作方法》(《文汇月刊》82年11期)一文,对林黛玉的典型性格作了详细分析,最后在理论上作了如下的阐发:
采用基于密度泛函理论的第一性原理计算方法,对掺Fe和(或)Cd的闪锌矿型Zn S的电子结构进行了计算。计算结果表明,纯闪锌矿的禁带宽度为2.85 e V;掺Fe浓度为3.125%的闪锌矿禁
煤炭作为我国重要的能源,对国民经济将起到一定的影响.而在煤矿开采的过程中,常常会因水害而出现严重的损失,从而不利于煤炭事业的发展.在新疆维吾尔自治区的库车县,榆树岭煤
简述了印度洋地震海啸与日本新、福冈地震灾害,分析了山西省防震减灾工作所面临的形势,提出了搞好山西省防震减灾工作的措施和建议,认为各级政府及有关部门应严格履行防震减
本文介绍了悬臂挂篮技术的特点及其必要性,并详细分析了桥梁悬臂挂篮技术施工过程以及注意事项,为提高桥梁悬臂挂篮技术施工技术提供建议。
<正>为掌握兰州市手足口病流行现状,分析流行特征,探讨其流行规律,并为防控对策的制订和调整提供科学依据,现将兰州市2008-2011年手足口病发病情况分析如下。1材料与方法疫情