基于密度聚类算法及其模式评估方法的研究与实现

被引量 : 0次 | 上传用户:ironfeet
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是目前计算机领域的研究热点之一,聚类分析作为数据挖掘技术的一个重要分支同样引起了大量研究人员的重视。目前在各个领域,针对不同的应用类型,已经开发了多种聚类算法。但是这些算法中没有一种算法能够适应所有的数据类型、簇和应用。所以,对于更加有效或者更适合复杂数据类型、簇或应用的新的聚类算法,总有一定的开发空间。同时,虽然目前已经存在了一些聚类评估的技术来判断什么是一个好的簇集,但是当使用客观度量精确地定义簇时,如何实现最优聚类往往在计算方面比较困难。论文在对聚类算法做了详尽的分析之后,就课题两个方面的工作——聚类算法的改进和模式评估方法的提出做了深入的研究,并且辅以大量的可视化散点图和实例数据集实验结果图。由于传统聚类算法在聚类初始条件的确定、输入参数对领域知识的依赖程度、噪声数据的影响处理和变密度簇聚类等问题上面,存在着一定缺陷,故本课题提出了改进算法——基于密度和密度可达聚类算法(Clustering Algorithm Based on Density and Density reachable,CADD),该算法引入三个概念:第一,间接密度可达概念,深化算法挖掘复杂形状簇能力;第二,将簇密度的差异性引入邻域半径计算中,提出动态邻域半径的概念,使算法可以处理变密度簇;第三,提出了局部密度的概念,避免全局密度算法在某些参数下核心点落入数据稀疏区域的问题。实验结果表明,算法的设计和实现是成功的。其次,文章对课题提出的基于数据点K-最近邻图的评估个体数据实例典型性的方法,进行了细致的讲述。在不同维度的数据集上进行的实验结果表明,课题提出的评估方法是切实可行的,是对聚类模式的一种有力的评估工具,增强了无指导聚类算法结果的可解释性和算法的可用性。同时,文章对比K均值、层次算法和神经网络考察了CADD算法处理实例数据集的有效性,实验表明,本文的密度算法和模式评估方法对处理现实数据集是有效的,可用性较高,聚类结果的可解释性良好。
其他文献
脊髓水平环氧合酶在切口痛大鼠术后痛觉超敏中的作用目的术后疼痛是急性疼痛的一种常见形式,各种类型手术的病人术后没有得到有效的镇痛是急性疼痛转为慢性疼痛的主要原因之一
思想品德课是以帮助学生提高道德素质,形成健康的心理品质,树立法律意识,增强社会责任感和社会实践能力,引导学生形成正确的世界观、人生观和价值观为目标的一门课程。经济全
在以信息和技术为基础的社会里,数据日益成为一种重要的信息。为了更好地理解世界,人们必须学会处理各种信息,尤其是数字信息。收集、整理与分析信息的能力已成为信息时代每
随着模糊美学的发展,模糊概念引入美学领域,模糊美成为模糊美学研究的主要对象,不确定性是模糊美的主要特点。中国古典文学体现了丰富的模糊美特性,翻译的核心是语言转换,但更应是
土地利用变化研究作为全球环境变化的核心计划之一,受到不同领域学者的广泛关注。利用MAS模型模拟微观个体的决策过程,探讨其对自然与社会经济环境变化的适应机制,是农户土地
目前,我国农村正处在社会主义市场经济的建立和向现代化农业转变的时期,建设社会主义新农村是我国现代化进程中的重大历史任务。加快农村剩余劳动力向非农产业流动、向城镇流
心肌细胞上的内阿片类受体的激活能够发挥对心肌细胞的直接保护作用。阿片受体属G蛋白偶联受体(GPCR),分为μ、δ、κ三种亚型,大量的研究证实在心肌细胞上δ、κ两种亚型的受体
确保国家粮食安全,是构建社会主义和谐社会的前提条件。生产力是耕地生态系统的核心和关键,中国粮食供给的增长是在粮食单产已经接近甚至超过世界平均水平的基础上的再提高,
小麦是全世界最重要的粮食作物之一,在我国是第三大粮食作物,河南是我国小麦第一生产大省。在目前我国大力发展优质、高产、高效农业的新形势下,在确保产量不断提高的同时,进
教学团队建设对于创新高校教学组织形式,提高会计教师队伍教学水平与合作机制,深化教育教学改革,优化人才培养模式,提高本科教学质量具有非常重要的作用。本文以巴纳德的组织