一种基于动态近邻选择模型的聚类算法

来源 :计算机学报 | 被引量 : 0次 | 上传用户:az4620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
ROCK是Sudipno Guha等1999年提出的一个著名的面向分类属性数据的聚类算法,其突出贡献是采用公共近邻(链接)数的全局信息作为评价数据点间相关性的度量标准,而不是传统的基于两点间距离的局部度量函数.尽管ROCK在Mushroom等分类属性数据集上取得了很好的聚类结果,但该算法本身也存在一些缺陷和不足.首先,衡量两个数据点是否为邻居的相似度阈值θ需要预先静态指定,该阈值对聚类质量影响很大,在对数据集没有充分了解的前提下给出恰当的阈值是困难的.其次,在ROCK算法中,相似度函数sim仅被用于最初邻居的判断上,只考虑相似与否,而未考虑相似程度,使算法对θ值过于敏感.另外,ROCK还要求用户事先选定聚类簇数k.这些缺陷或者影响聚类效果,或使算法不便使用.该文深入分析了上述问题,并提出基于动态近邻选择模型的聚类算法DNNS,通过优选近邻来提高聚类质量.文中还定义了内聚度度量函数以指导聚类过程.对标准数据集VOTE和ZOO的实验结果表明,DNNS算法的fα指标优于ROCK和VBACC.
其他文献
《伤寒论》的许多方剂是从《汤液经法》中衍化而来,其中黄芩汤是从小阴旦汤化生而来。在《汤液经法》中小阳旦汤和小阴旦汤都是治疗外感天行病的,而阴阳二旦是仲景经方的来源
通过拉伸、弯曲和硬度等试验以及显微组织分析,研究了不同调修温度和不同调修次数对6082-T6铝合金焊接接头组织与性能的影响。结果表明:在低温(240~260℃)下进行1~3次和在中
教育学话语既有理论话语,又有常识话语,但长期以来常识话语被严重边缘化了。确立常识话语形态教育学的合法性和正当性地位,对教育学的发展、对完整认识教育学的全貌具有重要意义
高清数字电视(HDTV)已成为大众消费的主流,其出厂前主控板质量检测仍采用人工测试方法,存在测试效率低、主观因素影响等问题,研究了HDTV主控板图像功能自动测试系统,给出了测
为满足对惯导系统的快速反应和高精度要求,针对单轴旋转捷联惯导系统,提出了一种抗晃动快速自对准方法。在捷联惯导单轴往复旋转的基础上,首先采用一种抗晃动基座粗对准方法
ORACLE数据库的备份解决方案是采用为存储介质管理软件开发商提供的API接口实现数据库的备份恢复。本文在系统研究ORACLE BSP机制原理的基础上,介绍了API结构及开发、测试方法
春秋初期,齐鲁两国的实力相差不大,因此鲁僖公能在对齐政策中根据齐国实力的变化采取比较灵活的策略,由此,鲁国对齐政策就有了一个从依附到对抗再到共处的过程,这是鲁僖公善于利用
训诂学的特色,旨在彰显训诂学在语言学界有着重要地位和研究价值。从其由来和发展讲,先秦训诂学的萌芽说明它是为了读通典籍和"经世致用"而产生的;到了汉代,训诂学体系已基本
建筑工程分包是指总承包单位可以将承包工程中的部分工程发包给具有相应资质条件的分包单位。工程分包合同是指承包商为将工程承包合同中某些专业工程施工交由另一承包商(分
<正>我国金融资源地区分布差异的原因我国区域经济发展十分不平衡,各地区工业化、城市化和市场化水平存在较大差异,在市场力量作用下会引导金融资源的地区分布差异,而金融体