【摘 要】
:
数据挖掘技术是近几年国内外迅速发展起来的一门交叉学科,是利用数据库、统计学、人工智能与机器学习等学科的技术对大量数据进行处理,提取隐含其中的、人们事先不知道的潜在
论文部分内容阅读
数据挖掘技术是近几年国内外迅速发展起来的一门交叉学科,是利用数据库、统计学、人工智能与机器学习等学科的技术对大量数据进行处理,提取隐含其中的、人们事先不知道的潜在有用信息和知识的过程。已经广泛被应用于农业生产、金融保险、国防等领域。聚类用于从数据集中找出相似的数据并组成不同的组,聚类分析是数据挖掘的一项重要内容。有很多方法可以使数据分类,公认的方法包括基于划分的算法、基于分层的算法及基于网格和密度的算法。模糊聚类方法将模糊数学的理论应用于聚类分析,能有效处理边界模糊的数据分类,模糊聚类算法的出现与之前的硬聚类方法相比,更有现实意义。然而,由于数据库结构多样性的特点,到目前为止,没有任何一种聚类算法普遍适应于所有数据库。在应用中,大量的聚类分析任务都需要特定算法来完成。传统的模糊聚类算法虽然能处理大量边界模糊聚类问题,但仍存在不少问题。本文针对模糊聚类中存在的问题,通过对模糊聚类新算法的对比研究,作了如下工作:首先,介绍数据挖掘和聚类分析的理论基础,并重点对模糊聚类方法FCM,NFWFCA进行分析对比。其次,详细的分析了聚类分析中的问题:指标冗余,指标权重以及敏感性问题等。这些问题导致聚类正确率下降,运行效率下降。再次,为了更加有效的解决这些问题,本文引入粗集理论。利用粗集理论中的属性约简方法对FCM算法进行改进,经过比较,看到改进后算法可以有效的提高其分类正确率,并对指标权重和敏感性问题也有所改善。最后,将改进的算法应用到信息检索系统,对信息检索系统检索结果进行重聚类,为高效信息检索系统构建提供理论依据和科学方法。
其他文献
随着计算机技术、网络技术,特别是Internet技术的飞速发展和广泛普及,人类社会正处于由工业经济向信息经济的深刻变革之中,信息化已经成为当今世界经济和社会发展的倍增器,成为了
近年来,随着嵌入式系统飞速发展,基于Linux的嵌入式系统已经能够提供统一的、可伸缩的解决方案,利用嵌入式Linux实现远程监控、图像采集与压缩成为可能。针对这一点,本文设计
随着互联网的高速发展和数据的爆炸性增长,用户面临着日益严重的信息过载问题,社会化媒体的兴盛使用户更加容易淹没在信息的海洋中。推荐系统作为一种比搜索引擎更加高效的信息
以总完工时间为目标的Flow shop调度问题是一个重要的制造加工系统,广泛应用于工业环境中。流水调度是很多实际流水线生产调度问题的简化模型,也是一类典型的NP完全问题,已被证
一个人的噪声可能是另一个人的信号,对于离群点的挖掘是数据挖掘领域的一个重要研究方向,在数据分析和挖掘的过程中,如何利用数据挖掘的相关技术准确的检测出数据中的离群点
计算机技术的发展把人类社会带入信息化时代,随着信息化进程的深入,通信技术与计算机及网络技术相融合,产生了一个新的研究领域--计算机支持的协向工作(CSCW-Computcr Supported
决策树是应用最广泛的数据挖掘方法之一,研究的重点围绕数据处理的准确率、效率及数据降维等方面,增量式学习能力也是决策树算法的主要特征。SURPASS就是高效的增量式算法,能
随着Internet的飞速发展,网上的数据资源空前丰富。每天都会有成千上万的用户在网络上浏览和寻找自己所需的信息。然而,由于信息量的庞大,对于每个用户来说,如何能够及时快速
移动自组网是由一系列可自由移动的节点所组成的多跳无线网络。Ad Hoc网络拓扑可分为平面结构和分级结构。平面结构中所有节点的地位平等,分级结构将整个Ad Hoc网络进行分簇,
随着手机,PDA等手持设备的普及和3G技术在国内的普及,4G技术的进一步研究,在手持设备上实现Web服务已成为手持设备应用的一项重要需求。由于目前手持设备的种类繁多、标准复