改进的自适应性密度聚类算法

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:flysky1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘的主要目标就是在海量数据中发现隐含在数据内部的不易被察觉的对决策者有用的信息。面临海量的数据资料,我们的首要的使命是将这些数据进行合理的归类。聚类的定义为:将抽象的数据对象的集合或者物理的数据对象集合分成相似的对象集合的过程。以基于密度、基于划分等为代表的是聚类算法,是聚类过程中主要使用的手段。计算机技术的进步和互联网技术的发展给数据处理带来前所未有的挑战。计算机和互联网技术的发展使得需要处理的数据类型越来越复杂和数据量也越来越大。数据类型和数据量级的增加使得数据挖掘技术在数据处理方面显得尤为重要。在数据挖掘中,基于密度的聚类分析方法意义重大。大多数聚类算法如DBSCAN算法和OPTICS算法等在聚类过程需要输入参数,而传统意义下这些参数由算法使用者随意设定。显然,人为选择参数有很大盲目性。很多情况下,算法的使用者找不到适合某个数据集的参数。为了解决此问题,本文提出ADCA算法。ADCA算法在基于密度的聚类方法基础之上加入了数据分层思想和基于数据集本身的自适应性思想。该算法通过分析数据自身分布自动确定相应参数,完成基于密度的聚类分析,产生合理的聚类分析结果。通过实验结果分析,发现本文提出的ADCA算法能够根据数据本身产生合适的算法参数,然后基于密度对数据进行很好地聚类,得出良好的聚类结果。
其他文献
随着业务流程技术的快速发展和广泛应用,用户可更高效的构建更新业务流程管理系统,从而积累了大量跨领域异构业务流程,根据参考流程检索出相似流程(流程检索)这一需求也日益
随着单片机的广泛应用,社会对单片机开发人员的需求越来越大,对他们的要求也越来越高,如何培养高素质的单片机开发人才对高校是十分重要和迫切的。目前高校的单片机教学依然
股票是市场经济的产物,从诞生的那天起就牵动着数以千万投资者的心。股票投资的收益与风险往往是成正比的,即投资收益越高,可能冒的风险越大。个人投资者和机构投资者时刻关心股
近年来,随着多媒体技术和互联网的飞速发展,产生的数字图像数量正以惊人的速度增长。这些图像在军用及民用各个领域都有着重要的作用。如何对图像进行有效的检索,已成为国际
随着市场竞争的日益激烈,面向顾客订货的、多品种、小批量生产己经成为21世纪的主导生产模式。相应地,制造企业正向着精益生产和敏捷制造的方向发展。在这种生产环境下,如何安排
随着互联网技术的迅速发展,网络上的资源日益丰富,各类搜索引擎应运而生,并迅速发展壮大。以百度,Google为代表的综合性搜索引擎搜索范围几乎涵盖了各个领域。但是,这些综合
计算机网络和多媒体技术的飞速发展,使得企业对于过程工业监测这一生产环节中的重要一环提出了越来越高的要求。研究并建立一套现代的过程工业监测平台,对生产过程的进行实时
自动程序设计一直是计算机科学的一个奋斗目标,而算法[1]是程序的灵魂,是解决问题的关键,是程序设计的基础和难点,要实现程序设计的自动化首先应该实现算法设计的自动化。但
数据库知识发现是(Knowledge Discovery in Databases,简称KDD)是当前涉及人工智能和数据库等学科的一门相当活跃的研究领域,分类是其中的一个重要研究方向。决策树是分类中
随着国际互联网的快速发展,Internet上信息资源类型和数量都愈来愈丰富,所使用的语言亦愈来愈具有多样性和不平衡性;同时随着网络用户数量与范围的急剧膨胀,其所掌握的语言也