基于粗糙集理论的聚类研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:yingq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是机器学习、数据库和统计理论相结合的产物,是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含的、先前未知的并有潜在价值的信息的非平凡过程。在数据挖掘领域中,聚类分析是一项重要的研究课题。与分类不同,聚类的目标是在没有任何先验知识的前提下,根据数据的相似性将数据聚合成不同的簇,使得相同簇中的元素尽可能相似,不同簇中的元素差别尽可能大,因此又被称为非监督分类。聚类分析作为数据挖掘系统中的一个模块,既可以作为一个单独的工具以发现数据库中数据分布的深层信息,也可以作为其他数据挖掘分析算法的一个预处理步骤,因此研究如何提高聚类算法的性能具有重要的意义。粗糙集理论是一种刻画不确定性和不完整性知识的数学工具,由波兰数学家Pawlak在上世纪八十年代初首先提出的。粗糙集理论善于分析隐藏在数据中的事实而不需要关于数据的任何附加知识。该理论以其独特的优势正赢得越来越多的研究者的关注,并在各个领域获得了广泛的应用。在数据挖掘领域,粗糙集最初主要用于分类,而今有关粗糙集的研究已深入到该领域的各个方面。本文首先介绍了数据挖掘的定义和主要方法,重点对聚类分析技术的各种算法作了详细的介绍和比较,并提出了一种改进的层次聚类算法;本文仔细学习了粗糙集理论,提出了一种基于代数运算的属性约简方法,针对粗糙集理论善于处理不精确和不确定性知识的特点,将粗糙集理论引入聚类分析中,对传统聚类方法作了相应的改进,然后通过实验验证了这种改进有效性;本文最后分析了粒度和聚类的关系,在粒度框架下研究了粗糙集理论在聚类中的应用,并提出了一种基于粒度原理的聚类算法,然后对UCI数据库中两个数据集进行了实验,结果表明与没有引入粒度概念的传统聚类算法相比,该基于粒度原理的聚类算法明显提高了对数据点的分类正确率,验证了在粒度框架下将粗糙集理论用于聚类可以有效的提高聚类质量。
其他文献
NP-完全理论是算法研究方面的重要的基本理论,它在计算机、电气工程和运筹学方面都有重要的地位。本文主要以算法技巧为着眼点来研究此类问题,希望在解决方式上有新的突破。加
互联网技术的进步和电子商务的快速发展要求在构建新企业应用的时候,新构建的应用既能够方便地与企业现存的各种遗留系统进行通信,又能够方便地与将来的系统进行通信。以此为
随着网络技术的飞速发展,软件产业的不断进步,企业对计算机技术依赖程度越来越高。软件也从单机的软件工具,发展为分布式,网络化,集信息自动化、数据存储、企业管理、企业策划等越
近年来,随着企业对计算要求的不断提高,计算机应用系统开始由集中式向分布式发展。软件的体系结构也从C/S模式转向了多层应用体系结构。以工业故障诊断系统为例,在很多工业故障诊
市场经济中,开展上市公司业绩评价在理论、实践上均具有重要作用。无论是对政府转变职能和加强宏观调控,还是对公司改善经营管理,以及投资者及时调整投资决策,都有十分重要的意义
便携式媒体播放器(PMP)是今年被讨论最多的一个话题。PMP播放器的优点很多,它能够直接播放高品质视频、音频,也可以浏览图片以及作为移动硬盘、数字银行使用,更有产品还具备一些
本文以电子政务应用为背景,研究了基于XML的异构数据交换技术和文本自动分类技术。重点研究了关系数据库模式到XML模式的映射以及XML的关系数据库存储技术。通过基于用户请求
随着计算机技术的高速发展,人类社会已经进入一个信息资源大爆炸的时代,分布式文件系统已经成为存储和管理海量信息的最佳选择。为了保证分布式文件系统可以正常有效的运行,避免
随着低功耗无线通信技术、微电子技术、微型传感器等技术的发展,使得能够在微小传感器内集成信息采集、数据处理和无线通信等多种功能。无线传感器网络是由大量的传感器节点组
Matching Problem(图的匹配问题)和packing问题都是一类重要的NP难问题。3-维匹配问题和P2-packing问题是两个具有代表性的matching和packing问题。在参数复杂性理论框架内,人们