基于图论的符号型数据聚类算法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:tonyyuhua
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是数据挖掘中重要的组成部分,是一种无监督的学习。聚类算法是将一组分布未知的数据进行分类,尽可能地使得同一类中的数据具有相同的性质,而不同类的数据其性质各异。近年来,随着人们对聚类技术的不断研究,聚类分析在机器学习、数据挖掘等很多领域已经成为人们进行数据分析和信息提取的研究热点。针对数值型数据的聚类已经进行了大量的研究,在实际应用中符号型数据仍然广泛存在,并且数值型数据的聚类算法不能直接应用于符号性数据,因此,符号性数据的聚类算法成为近年来的研究热点。本文利用图的相关理论对符号型数据聚类算法进行了深入研究,主要研究成果如下:(1)根据符号型数据的特征,结合图论的相关概念,提出了一个把符号型数据转化为无向图的转化模型,该模型有利于更好地研究符号型数据聚类算法,有一定实际价值。(2)在转换后的无向图基础上,通过图聚类领域的相关理论,给出了字符型数据中不同属性值之间相似性度量,并将该相似性度量应用于K-Modes算法,实验结果表明,该相似性度量优于0-1相似性度量。(3)设计并实现了一个基于符号型数据的聚类实验系统。该系统基于B/S结构,Apache2.2.4+PHP5.2.9+Mysql5.0技术开发而成,采用了最新的web2.0理念和技术。本系统具有稳定性,交互性,可扩展性等特点,该系统的建立为符号型数据聚类研究提供了一个横向比较平台,具有一定的应用意义。总之,本文以图聚类理论为研究手段,以符号型数据聚类为研究目标,提出了一种新的符号型数据相似性度量,并采用最新的技术和理念实现了一个符号型数据聚类算法实验系统,并在此基础上对UCI数据集进行了聚类实验分析,证明了改进的相似性度量方法能够提高聚类精度,具有一定的应用价值。
其他文献
随着Internet的迅速发展,各种信息也在迅猛增加。面对海量的信息,人们常常无法选择和消化,不知道如何更方便、更快捷、更有效地发现自己所需要的信息资源。目前,Web系统为所
人脸检测与识别技术是模式识别与机器视觉领域中最有挑战性的研究课题之一。随着我国公安系统人脸图像信息库的建立和日趋完善,人脸识别技术正逐步应用到公安刑侦、治安管理等
国际化是软件设计的基本需求,输入法是软件国际化的最重要的组成之一。自从X11R6发布以来,XIM(X输入法,X Input Method)是实现X窗口系统上的输入法的主流技术。现在,新的输入
软件可靠性预测是一个研究难度非常大的课题,预测结果的准确程度直接影响到工程人员对软件质量的判断,进而影响到软件的开发,测试和应用等诸多方面。在目前的各种预测方法中,相对
伴随着集成电路(IC)技术的发展,电子设计自动化(EDA)逐渐成为重要的设计手段,已经广泛应用于模拟与数字电路系统等许多领域。EDA的一个重要特征就是使用硬件描述语言(HDL)来完
随着软件通用化与个性化之间矛盾的日益加剧,以及软件开发意识的提高,工作流技术越来越被业内所关注。工作流技术为企业流程再造(BPR),企业流程自动化,企业应用集成(EAI),提供了坚
多目标进化算法是目前进化计算中最为活跃的研究分支之一,该研究领域经历十几年的发展,已经出现了很多著名的研究成果,并且在航空飞行器设计、工程科学以及自然科学等领域得到了
对于入侵检测系统发出的大量报警而言,报警关联是一种非常重要的技术。当前,该领域的研究前沿主要集中在从初始报警中获取攻击策略。有理由相信,纯入侵检测已经不能满足安全
模型检测方法是最近二十年来最成功的自动验证技术之一,目前已经广泛应用于有穷状态系统(包括通信协议和电路设计)的分析和验证。实时系统的安全性至关重要,模型检测方法可以
Web服务是一种构建面向服务架构(SOA)的分布式计算技术,为分布式计算与服务带来了极大的灵活性。随着Web服务的迅速发展,其功能日趋强大,提供相同功能的Web服务也越来越多。W