基于数据质量与势熵的聚类算法研究

来源 :武汉大学 | 被引量 : 7次 | 上传用户:guodlleon
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学的发展,人类社会已经进入到大数据时代。在大数据时代,数据分析技术成为了利用大数据资源的关键工具,能够发现数据中的价值,就能够在大数据时代占据先机。数据挖掘作为数据分析的关键技术,在大数据时代有着广泛的应用前景。数据挖掘能够发现数据中隐藏的知识,充分利用数据资源,在一定程度上解决数据庞大而知识匮乏的问题。在数据挖掘中,主要有三种分析方式,分类,关联和聚类。分类和关联在机器学习中属于监督型学习算法,聚类属于非监督型学习算法。在大数据时代,往往强调全数据集的挖掘和学习,并且很难有合适的训练集对算法进行训练。因此,非监督学习算法更适合大数据时代的背景,聚类分析也成为数据挖掘的研究热点。本文针对数据挖掘中的聚类问题,提出了矢量数据场的理论、数据场数据质量的新概念、数据质量聚类算法、基于势熵的峰值密度聚类算法。并使用人脸表情识别和人脸自动聚类两种实例对相关的理论和方法进行了检验。首先,数据场是一种分析数据的模型,经典的数据场理论通过势能描述数据在数据集中的分布情况。本文在其基础上,提出了矢量数据场的概念,让数据场不仅能描述数据的分布,还可以描述数据的运动趋势,并通过哈密顿算子统一了矢量数据场和数量数据场的模型。其次,数据场的概念来源于物理场,而物体在物理场中有质量,因此,数据在数据场中也应有质量。本文提出了数据质量的新概念,即代表数据在数据集中的固有属性,并随着挖掘视角的改变而变化,其本质是衡量数据在特定挖掘视角下的权值。对于数据场中不随挖掘视角改变的属性,本文提出了数据场基本矩阵的概念,并建立起数据场基本矩阵、数据质量和数据势能的线性方程组。数据场基本矩阵进一步将数据场的计算矩阵化,并在此基础上提出数据最优质量的内凸点解法,解决了经典数据场理论求解最优数据质量受初始点选取影响的问题。在势能与质量的方程组基础上,结合“学习机”的思想,提出了基于非齐次线性方程组的最优数据质量的求解方法,提高了数据质量求解的效率。然后,在数据质量的基础上,提出了数据质量聚类算法。让数据质量代表数据的密集程度,找到聚类中心,并通过一次迭代完成聚类。该方法解决了传统划分聚类算法聚类中心确定不准确,需要提前输入聚类个数等问题。对于《Science》上发表的“峰值密度聚类算法”,需要手动设定阈值的问题,提出了基于势熵的峰值密度聚类算法。该方法基于香农熵与聚类不确定性之间的关系,建立起香农熵与阈值之间的关系函数,由此来确定每个数据集所对应的最佳阈值,提高了聚类算法的普适性。最后,通过人脸表情识别和人脸自动聚类对新理论,新概念和新方法进行了检测。结果表明,数据质量能够很好地反映出像素点在人脸表情中的权值,并能构建出较好的人脸表情特征脸,得到理想的识别结果。而数据质量聚类算法和基于势熵的峰值密度聚类算法在人脸自动聚类中能够得到优于峰值密度聚类算法和DBSCAN等经典聚类算法的结果。
其他文献
<正>在美国,媒体与政府的关系复杂。第一,美国媒体影响政府决策。由于媒体具有的特殊影响力,它所关注的话题很快会成为民众以及政治领导人讨论的中心,美国媒体对报道内容的选
目的:调查中医护理技术操作的应用情况。方法:对接受中医护理的4 066份病例进行统计分析。结果:综合医院临床应用中医护理技术对患者实施护理治疗,收到满意的效果,取得了良好
华钟彦先生谙熟文字学、音韵学、经传诸子之学,在《诗经》音韵训诂、义理辞章、《诗》学基本问题研究等方面,都有创造性发展,贡献卓著。华先生《诗经》研究的突出特色,一是留
从地域文化、传统民俗配色及五行五色观方面分析,揭示陕西凤翔泥塑在色彩上的应用。陕西凤翔泥塑的色彩,善于运用原色彩绘,其中青(蓝)、赤(红)、黄、黑、白等色彩的强烈对比
<正>Yan Huang.2007.Pragmatics.Oxford:Oxford University Press.xix+346pp.ISBN0-19-929837-8.2007年,著名语言学家、英国雷丁大学黄衍教授又推出一部新作《语用学》(牛津
针对现有手机手工贴膜存在的缺陷,进行了双工位自动控制手机贴膜机的系统设计,解决了传统手工贴膜速度慢、膜内灰尘、气泡多的缺点,实现了手机贴膜的批量生产.
分析了山东省郯城县银杏产业发展的优势和劣势、机遇和挑战。认为郯城银杏产业拥有一定的资源优势,但产业化发展和产业间协调不够,国内外市场对银杏资源、产品的需求以及供不
为研究带栓钉的内置钢板混凝土剪力墙的受力状态及承载力的变化规律,以4个带栓钉的内置钢板混凝土剪力墙试验研究为基础,采用有限元软件ABAQUS建立了22组带栓钉的内置钢板混
体验性哲学认为人的身体的、认知的和社会的体验是形成概念系统以及语言系统的基础,人体隐喻认知是借用身体某个器官或部位的功能特点构成隐喻概念,以此来认知另外一个领域的
有效的成本管理是各行各业提升竞争力的重要手段,更是多年来的研究重点。但是仍有大量企业因成本管理失控而走向下坡路。北京三元牛奶、达能乐百氏均是因为成本控制失败导致