学习非唯一的最佳聚类数

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:oldfly2005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
确定“最佳聚类数”一直是聚类算法面临的一个难题。为了确定一族合理的聚类数而不是单个聚类数,提出了一种基于谱分析的算法,并能处理较为复杂的数据集。该算法构建了数据点之间的相似度图,在不同的分析粒度下,用图上的“随机游走”来传播相似度,采用了一个新的评判标准,“广义特征差”来寻找聚类数族。实验结果表明该算法在聚类数不唯一的情况下能够有效地确定聚类数,并且和其他几种算法相比具有较优的计算复杂度。 Determining the “best clustering number” has always been a challenge for clustering algorithms. In order to determine a reasonable number of clusters rather than a single cluster number, a spectral analysis based algorithm is proposed and can handle more complex data sets. The algorithm constructs a similarity graph between data points, spreads the similarity by “random walk” on the graph under different analysis granularities, and adopts a new evaluation criterion, “generalized characteristic difference” to find the poly Classes. Experimental results show that the proposed algorithm can effectively determine the number of clusters when the number of clusters is not unique and has better computational complexity than other algorithms.
其他文献
梁启超从编写新史的目的出发而介入了对文学性传记的研究,着力探讨了以传代史的可行性,并对列传、合传、专传等的具体操作原则作了详细论述,其理论虽非至善至美,但其开创之功不容
本文对格赖斯所创立的会话含意理论及其所补证的新原则作了阐述 ,并把该理论放置于中国相声的语境中 ,分析各种准则与相声语言的联系 ,并试图总结出相声语言应遵守的合作原则
根据翻译界认可的翻译标准,从语义和文化的角度,通过直译、意译、形象代换、习语套用等四种主要翻译方法在其转换过程中管窥英汉习语的某些特征及差异。只有貌神俱合的译文,才
济慈颇富艺术感染力,给读者一种强烈的时空感受.诗人通过语言、诗境及逻辑等因素无意识地将时空折射出来,组成一个动态和谐的夜莺世界,而夜莺世界与现实世界形成一种对比.时
丙型肝炎相关性肾小球肾炎较为罕见,其临床表现与病理类型有关.肾脏病理损害以膜增殖性肾炎最常见,其次为膜性肾炎,罕见IgA肾病[1].本研究报道1例HCV感染相关性IgA肾病.
We present a 69-year-old woman with a duodenal obstruction after successful selective transcatheter arterial embolization (TAE) for a duodenal diverticular hemo
给出了6bit分辨率、10bit精度的千兆以太网卡芯片数模转换电路,包括体系结构设计、电路设计与仿真、版图设计.该数模转换电路经过TSMC0.13μm1P8MCMOS工艺验证,工作电压为1.5
Crohns disease (CD) is a chronic relapsing and remitting autoinflammatory disorder of the gastrointestinal tract that has many intestinal and extraintestinal co
为解决大规模网络教学应用中系统可集成性和教学资源与系统模块互操作性的问题,基于多层体系结构的网络教学系统,提出了规范化的接口设计、自描述结构化的数据表示方法、基于