投影聚类算法及其应用的研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:siquan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着聚类分析的应用领域日益扩展,越来越多高维的、混合类型属性数据需要处理。然而现有的大部分算法要么只能对低维数据有效,要么只能处理某一种特定类型的数据。针对这两个矛盾,对高维的、三种混合类型(二元型,类别型,数值型)属性数据的聚类算法做了一些研究。 首先,基于密度的分组方法(DGM)将数据集中每一维的数值型数据分别离散化,用区间标号替代其实际的数据值。然后,将数据集中所有有效数据统一编号,转化成一个类别型数据集,去掉空缺值并添加事务标识符后成为一个事务数据库。在定义了最长频繁闭项集(LFCI)的概念后,利用LFCI的两个关键属性,即(1)LFCI最大地覆盖了事务;(2)LFCI能够作为事务的描述,可将具有相同LFCI的事务归为一簇。为了适应聚类的要求,对传统的频繁模式树(FP-树)从三个方面进行了改造,并详细叙述了改造FP-树的创建。分析挖掘LFCI的过程后,更新FP-树以降低空间复杂度;根据LFCI的特点,导出无效树的剪切策略以降低时间复杂度,给出的LFCI-增长方法挖掘出每个事务的LFCI。从事务的多个LFCI中,选取一个作为该事务的描述,插入到定义的簇树中。每一个从根节点到链接有事务标识符的节点即为一个簇,其路径中的项对应于相关维,事务标识符对应于相关点。以上过程被总结成一个对高维混合属性数据的聚类框架,它本质上是投影聚类方法。 为了验证聚类框架的性能,在模拟数据集上做了基于最长频繁闭项集的算法(CA-LFCI)的伸缩性,对高维数据处理,对不同类型属性处理,健壮性等方面的实验。仿真实验表明,CA-LFCI具有较好的综合性能。另外,还将算法应用在两个真实数据集Votes和Mushroom上。结果表明,在算法的输入参数——最小支持度小于22%的情况下,对Votes数据集,精确度保持在95%以上,最高可达98.62%,运行时间少于0.71秒;对Mushroom数据集,精确度保持在97%以上,最高可达99.8%,运行时间少于5.5秒。此外,结果是可用的和可解释的。
其他文献
上世纪中叶,人们发现能耗会导致计算机中的芯片发热,极大地影响了芯片的集成度,限制了计算机的运行速度。研究发现,能耗来源于计算过程中的不可逆操作。量子计算机的概念就源手为
日常生活中,我们经常需要与计算机进行交互活动。最初的人机交互方式是采用命令行的方式,这种方式需要使用者掌握大量的命令,对使用者要求较高。之后的人机交互主要采用窗口界面
随着虚拟机与计算机仿真技术的不断发展,为了提高虚拟机的开发效率,虚拟机可定制生成机制的相关研究日益深入,实现虚拟机可定制生成的难点是如何结合虚拟机可定制生成方法建
软件设计模式的复用是软件复用的一种主要形式,是解决软件开发效率和质量问题的重要途径。软件设计模式的复用将软件复用的层次由代码层提高到设计层。把复用的重点放在抽象层
对数据库的查询可以分为精确查询和概率查询两种。当进行精确查询时,查询结果完全符合查询条件,而且结果是确定准确的。但对于某些情况,无法采用精确查询得到正确的结果。比
因为“1影响N”现象以及解密再加密操作引起的较大开销,导致目前的组播密钥管理方案不适用于大型的高动态性组播组。自适应和可扩展的AS方案(Adaptive and Scalable key mana
随着经济社会的发展,水资源供需矛盾日益突出,确保黄河不断流成为黄河下游水量调度管理的首要目标。黄河下游引黄涵闸监测技术手段落后,引水计量不科学,涵闸引水调度和现代化管理
工作流是一种为了在先进计算机环境支持下实现业务过程集成与业务过程自动化而建立的可由工作流管理系统执行的业务模型,其主要特点是实现人与计算机协作过程的自动化,使人以及
随着科学技术的发展,Internet迅速蔓延到世界各地,成为人们沟通信息和协同工作的有效工具。其中,通过Internet连接的成千上万的计算资源、存贮资源、软件资源、信息资源等各种数
随着电子商务技术的蓬勃发展,电子订票系统已经成为航空公司不可或缺的一种销售方式。电子订票系统服务质量的提高和营运成本的降低都离不开其性能分析与容量规划。目前,国内