引入信息熵的CURE聚类算法

来源 :计算机应用研究 | 被引量 : 27次 | 上传用户:mhpymhpy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了提高传统CURE(clustering using representatives)聚类算法的质量,引入信息熵对其进行改进。该算法使用K-means算法对样本数据集进行预聚类;采用基于信息熵的相似性度量,利用簇中元素提供的信息度量不同簇之间的相互关系,并描述数据的分布;在高、低层聚类阶段,采取不同的选取策略,分别选取相应的代表点。在UCI和人造数据集上的实验结果表明,提出的算法在一定程度上提高了聚类的准确率,且在大型数据集上比传统CURE算法有着更高的聚类效率。
其他文献
【正】 不久前,一家实业集团公司将投诉信递交到石景山工商局商广科,诉某媒体在发布一电子产品的广告中侵犯了自身的合法权益,要求工商部门依法查处,并表示保留提起司法诉讼
针对传统单幅图像深度估计线索不足及深度估计精度不准的问题,提出一种基于非参数化采样的单幅图像深度估计方法。该方法利用非参数化的学习手段,将现有RGBD数据集中的深度信息迁移到输入图像中去。首先计算输入图像和现有RGBD数据集多尺度的高层次图像特征;然后在现有RGBD数据集中,基于高层次的图像特征通过KNN最近邻搜索找到若干与输入图像特征最匹配的候选图像,并将这些候选图像通过SIFT流形变到输入图像
【正】 (一) 北京同仁堂至今已有300多年的历史了,它与杭州胡庆余堂、广州陈李济、汉口叶开泰并称中国四大药店。 据史料记载,创办同仁堂的乐家,原姓岳,祖籍浙江省宁波府慈水
快速傅里叶变换(fast Fourier transform,FFT)算法是对实时数字信号进行快速分析处理的一种基本方法。针对多核嵌入式实时环境下并行FFT算法进行了研究,以有效提高实时信号处理的速度。提出了一种新的静态多项式FFT算法,充分利用静态多项式奇偶项的不同特点直接代入数据计算,免去了层层迭代的计算过程,减少了运算过程中的通信,提高了并行性能。对算法的理论进行了严密论证,通过嵌入式实时平
第二代人工免疫系统中的树突细胞算法(DCA)是受先天性免疫系统中树突细胞(DCs)功能的启发而开发的算法,它已被成功运用于许多计算机安全相关领域。但是对DCA理论方面的分析工作很少,对算法理论方面的研究也较少出现,因此对DCA执行相似的理论分析、确定算法的运行时间变量、揭示其他算法属性就显得非常重要。给出了两个基于算法输入数据流的运行时间变量,并且证明了这两个变量是如何对算法输入数据与算法运行时变
为了提高图像匹配的效果,提出一种自顶向下分裂聚类的图像匹配算法,该算法可以获得多个目标级别的对应关系的聚类,进而找到两幅图像共存的多个目标。在互k近邻图表示模型的基础上,通过团检测方法来获得图中的团,主要是利用分裂聚类的思想,并定义了一个团密度函数,根据此函数来确定分裂终止条件。根据团检测技术获得的团恢复出团内的对应关系,从而达到图像匹配的目的。实验结果表明:该算法有较好的性能,可以应用到很多图像
为了研究不同类型元件组成系统后元件各自的维修率,同时考虑工作环境因素对维修率的影响,提出了元件维修率分布的概念。元件维修率分布是通过将SFT中故障概率分布代替Markov链中失效率实现的,给出了不同元件组成的并联和串联系统的元件维修率分布推导过程。实现维修率分布的计算关键在于状态转移概率p_0范围的确定及不同元件故障率与维修率的比值,即为计算过程所需的限制条件,给出了p_0范围和比例限定的计算方法
为提高共生生物搜索算法(symbiotic organisms search,SOS)的性能,提出一种基于旋转学习策略的共生生物搜索算法(symbiotic organisms search using rotation-based learning,RSOS)。该算法将串行个体更新方式改为并行种群更新方式,提高算法收敛速度;引入遍历保优的旋转学习策略,代替寄生机制的盲目随机搜索,增大保留新个体的
针对高维数据具有低秩形式和属性冗余等特点,提出一种基于属性自表达的无监督超图属性选择算法。该算法首先利用属性自表达特点用其他属性稀疏地表达每个属性,此自表达形式使用低秩假设寻找高维数据的低秩表示,然后建立超图正则化因子保持高维数据的局部结构,最后利用稀疏正则化因子进行属性选择。属性自表达特性确定属性的重要性,低秩表示相当于考虑数据的全局信息进行子空间学习,超图正则化因子考虑数据的局部结构对数据进行
首先研究可满足性问题,报告了DNA计算关于可满足性问题的研究现状;然后介绍了微流路芯片高压凝胶电泳,给出了解决可满足性问题的解法;最后通过实例验证了算法的可行性。给出的算法操作简单、出错率低。算法只需要芯片电泳,不需要构造探针,也不需要荧光标记。对解决其他NP问题具有很好的借鉴意义。