【摘 要】
:
聚类分析是数据挖掘的常用方法之一.从聚类的角度看,其他数据挖掘方法不过是对聚类的一种特例采用不同的建模方法进行研究而已.聚类分析通常采用距离量度来描述相似性,但拓扑
【机 构】
:
铁道科学研究院电子计算所,北京,100081
【出 处】
:
2005第一届中国分类技术与应用研讨会(CSCA)
论文部分内容阅读
聚类分析是数据挖掘的常用方法之一.从聚类的角度看,其他数据挖掘方法不过是对聚类的一种特例采用不同的建模方法进行研究而已.聚类分析通常采用距离量度来描述相似性,但拓扑关系比距离具有更强的普适性和灵活性.从拓扑的角度出发,对聚类问题进行描述,说明了聚类过程实际上等价于拓扑空间求基的过程,并严格论证了以基于距离矩阵的传递闭包为代表的聚类方法结果的实质就是拓扑空间的最粗的基,并通过具体数据挖掘实例验证了它的正确性.从而揭示了聚类问题与数学上的拓扑空间之间的联系,为聚类方法研究提供了联系其他领域的新思路。
其他文献
减少算法参数对聚类效果的影响,是聚类分析技术需要解决的一大难题.提出与离群点识别方法相结合以弥补聚类技术不足的新思路.在提出基于公共近邻的离群点概念之后,给出一种借
1 原发性肺水肿主要发生在发热期和低血压期 ,与全身血管损害渗出时间相一致 ,但和周围血管损害程度并不平行。临床发现 ,血红蛋白 ( Hb) 150 g/L和 150 g/L者原发性肺水肿
去年12月12日下午,江苏省滨淮农场场部四楼会议室正在召开农垦系统先进教师授奖大会。当农场中学教师沈金凤走上主席台,从场党委副书记手中接过中华人民共和国农牧渔业部颁
牙周疾病不仅会破坏牙齿支持组织,造成牙龈红肿、出血、牙齿脱落,还会对全身健康造成威胁,因为口腔中的细菌成分和细胞产物很容易通过牙周袋溃疡面扩散到附近或远隔器官,导致
k-均值是著名的聚类算法,被广泛应用在诸多领域.经过多年发展,原始的MacQueenk-均值算法已经衍生出多种变形,构成了k-均值算法家族.首先回顾k-均值家族重要成员:k-均值(k-mea
数据挖掘领域已经提出了很多的聚类算法,但是增量式的聚类算法并不多见.在模糊层次聚类算法FHC的基础上提出了该算法的增量算法--IFHC.IFHC能有效地应用于增量环境中.实验结
DBSCAN聚类算法能够从含有噪音的空间数据中发现任意形状的聚类,但人工确定参数的方式制约了DBSCAN算法的聚类能力.提出了一种自动确定参数MinPts和EPs的新方法.首先根据近邻
美国密西根大学结合医学临床服务部(UMIMCS)向公众推出其制定的金字塔式食谱。该食谱注重植物类食品和具有治疗作用的食物,强调饮食均衡及多样化,提倡培养良好的用餐习惯和饮食卫生。
ICA混合模型扩展了高斯混合模型,通过使用指定的超高斯或次高斯模型,ICA混合模型可以描述混合模型中可能出现的非高斯源.但是特定的超高斯或次高斯模型不足以自适应地描述具
文本聚类是利用聚类技术对大量的文本数据进行分析,把内容相似的文本放在同一个集合.针对基于k-means特征加权算法用于文本子空间聚类的性能进行了一系列的实验研究与分析,并