【摘 要】
:
聚类分析中簇确认方法可评估所得簇的“质量”,使所得聚类结果能更好地体现数据集的原始结构。IB方法通过给定源变量X和它的相关变量Y的联合概率分布p(x,y),来寻求X的压缩变
论文部分内容阅读
聚类分析中簇确认方法可评估所得簇的“质量”,使所得聚类结果能更好地体现数据集的原始结构。IB方法通过给定源变量X和它的相关变量Y的联合概率分布p(x,y),来寻求X的压缩变量T,从而有效地发现数据间隐含的模式。IB方法有严密的理论基础,在很多领域得到成功的应用,本文将IB方法用于层次聚类的簇确认中。许多聚类算法需要用户预先指定簇数目或簇范围,簇数目的确定问题一直是聚类分析中的一个重要难题。针对该问题,本文基于IB方法思想,构造了簇密度分布函数,提出一种用于层次聚类的簇确认方法——IB Hindex指标。该指标引入簇的密度分布函数,有效地度量簇内凝聚性和簇间分离性,并在两者之间寻找合理的平衡,发现拟合输入数据集的正确簇结构。将IB_Hindex指标应用到层次聚类生成的完全二叉树中,可指导算法发现数据蕴含的特征模式数目。IB_Hindex算法不依赖于任何参数,可在层次树状图中有效地进行搜索,在最小化簇内凝聚性和最大化簇间分离性间找到平衡点,找到合适的折线切断树状图,从而发现能较好反映数据集自身模式的合理簇结构。人工数据集上的实验结果表明,和四种已有的簇确认方法相比较,IB_Hindex指标可有效地发现数据集内隐含的正确簇数目,从而得到合理的簇结构,尤其对于大小和密度不同的簇组成的数据集,IB_Hindex的执行效果明显优于其它指标,这为层次聚类的应用提供了较好的理论支持。
其他文献
随着计算机网络和通信技术的迅速发展,计算机支持的协同设计(ComputerSupported Cooperative Work CSCD)为时空分散协同工作的人们提供了一种全新的协同工作环境和交互方式,大大
虚拟人运动合成技术一直是虚拟现实领域研究的难点和热点之一,也是数字文化产业的核心技术之一,该技术在影视动漫、三维游戏、安全预演等诸多领域具有广阔的应用前景。在古建
互联网技术的快速发展为人们在网络上传递数字多媒体数据提供了便捷的应用,同时也给数字信息的保护这一问题提出了新的挑战。信息隐藏技术就是将需要保护的数字信息如序列号、
无线自组网(Ad Hoc Network)具有无中心、自组织、无基础设施、多跳路由、动态拓扑等特点,既可以单独组网,又可以整合到互联网,在很多的领域具有应用价值。P2P网络具有分散性
序列图像中目标的检测与跟踪是机器视觉领域的研究热点之一。随着视频监控系统的广泛实施以及城市信息化的快速发展,该项技术已经充分表现出广泛的应用前景。近几十年来,提出
当今社会,计算机技术在给人们带来便利的同时也带来了一些安全隐患,诸如计算机病毒、木马和黑客等问题,不时地给人们的工作和生活带来的一定的困扰。而传统依靠病毒防护、防火墙
在21世纪计算机技术飞速发展的时代,为提高农业生产管理水平,农业专家系统应运而生,使用专家系统与农业领域知识相结合解决农业生产中的问题成为了一种创新。玉米是我国的主
BDD作为布尔函数的一种等价表示形式,最初被成功应用在模型检测、系统验证等领域。由于BDD所具有的压缩表示特点,使其作为一种重要的数据结构得到了越来越广泛的应用,如知识
随着通信技术的发展,移动无线网络在当前获得了长足的发展,诸如蓝牙,802.11(Wi-Fi)等技术正逐步得到了越来越广泛的应用。无线网络技术正逐步成长为信息获取的一个很重要的部分
近年来,随着网络规模的飞速增长,网络上的数据流也越来越多。但是,传统的路由算法不能充分利用现有的网络资源,从而造成了网络拥塞,这已成为制约网络发展和应用的瓶颈。因此,