基于粒化机理的粗糙特征选择高效算法研究

来源 :山西大学 | 被引量 : 4次 | 上传用户:sdmligq1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘旨在将数据转换为有用信息,是目前信息化社会中发现知识的重要手段之一。随着信息技术的迅猛发展,尤其是Internet和数据库技术的快速进步,信息化产业中可获取到的数据正呈现着爆炸性的增长趋势,维数也迅速增高,使得“海量高维”的数据时代已经到来。数据集的海量高维导致了难以与之匹配的大计算量及大量的传统挖掘算法很难适应,然而各行各业尤其日常生活中对信息的庞大需求却与日俱增,这为传统的数据挖掘技术带来了全新而巨大的挑战,探索快速且有效的数据挖掘算法已成为一个全球性的热点研究领域。特征选择是数据挖掘中一个至关重要的数据预处理技巧,如何高效可行地实现对海量高维数据集的有效特征选取,也是目前特征选择研究中面临的主要困难之一。为此,本文以粗糙集理论为研究工具,针对面向海量数据集的特征选择进行了系统性的研究,主要取得了以下的研究成果。(1)构建了一个基于分解和融合的海量数据集高效特征选择框架。对给定的海量规模数据集,借鉴于使用样本表征整体的思想,通过深入分析如何将数据集由一个大的信息粒细化为多个可有效表征其整体的小的信息粒以及如何融合多个小信息粒结果这两个核心问题,构造了多粒度视角的高效特征选择框架,为大规模数据背景下的数据分析提供了可以借鉴的新途径。(2)基于高效特征选择框架,通过将代表性的算法嵌入其中,分别发展了面向海量规模符号数据集和混合数据集的高效粗糙特征选择算法。发展的高效算法可以高效地找到一个有效的近似结果,尤其处理大规模数据集,其高效性更加明显。相关实验结果也进一步验证了高效算法的高效性和可行性。(3)针对动态数据集,分别构造了三种代表性信息熵的组增量机制、维数增量机制以及随数据取值动态变化的更新机制。针对数据动态更新的三种主要情况,通过分析动态数据集中基本信息粒以及粒空间结构的变化,分别建立了三种代表性信息熵基于上述三种变化情况的更新机制。(4)基于信息熵的更新机制,定义了特征重要度的度量,并依此分别设计了粗糙特征选择的组增量更新算法、维数增量式更新算法以及随数据取值动态变化的更新算法。理论分析和相关实验结果也都进一步验证了算法的有效性和高效性。更新原理为动态性数据的数据分析提供了新的方法和理论支撑,为多源数据集的信息融合提供了新的研究路径。本文在系统分析了现有特征选择算法在处理海量高维数据集中的局限性,基于粗糙集理论,深入探索了如何构建高效的特征选择算法,并通过借鉴一些其它学科中的处理方法,发展了一系列高效的粗糙特征选择算法。相关的实验结果也都进一步验证了本文中新算法的可行性和高效性。因此,本文的主要研究内容及相关成果为海量高维数据集的知识发现提供了新的处理技巧和研究思路。
其他文献
为了探明缓释肥分层底施模式的作用效果,为简化施肥技术的推广应用提供理论依据,以玉米品种鑫瑞25为试验材料,采用随机区组试验设计,设置缓释肥分层(0~15、15~30 cm土层)底施
体可视化是目前公认的3D标量场可视化的最重要途径。它通过“重采样”与“图像合成”等步骤,直接将由离散的3D数据场生成屏幕图像,能够使用户看穿数据体,深入了解数据场的全局状
目的:观察肢体加压疼痛条件下不同意识状态对疼痛相关字词注意偏向的影响。方法于被试者左臂肘横纹上方1~2 cm处捆绑止血带加压至26.6 kPa ,同时采用点探测任务进行32名健康大学
2009年5月7日晚,25岁的谭卓在杭州市文二路南都德嘉西区门口走斑马线时,被胡某驾驶的三菱跑车撞飞,送医院抢救无效后死亡。悲剧发生后,社会舆论反响强烈,目击者纷纷通过网络
随着中国经济高速发展带来的物质条件不断提升,企业员工心理负担却越来越沉重。那么,如何把管理好员工放在企业领导心上,切实提高对员工的管理质量呢?笔者结合个人多年工作实际谈
随着人才对国家或区域发展重要作用的凸显,世界各国之间展开激烈的“人才大战”,人才在地方之间迁徙现象大量存在。为深入了解理论界针对人才迁徙现象的研究程度,本文借助Cit
本篇论文旨于区分朱熹与中江藤树关于“明明德”的解释。朱熹认为“明明德”的基础是“天”与之“民”的“仁义礼智”之“性”,“明德”即是此“性”,而“明明德”的方法是“
图像插值处理需要一幅参考图像或源图像以构造一幅新图像,其大小由设置的插值比例控制。该处理在许多领域有很重要的应用,包括卫星成像,医学成像,尤其在军用和民用电子产品领
目的研究渐进性松弛训练对心理应激状态人群甲襞微循环的影响。方法按照入校心理健康普查标准,随机抽取60名心理健康个体作为研究对象,以注意分配实验作为心理应激刺激。测试实
软件代码中的缺陷是导致软件故障和漏洞问题的主要原因。基于缺陷的软件测试技术可以分为动态检测技术和静态检测技术。静态检测技术不运行被测程序,通过应用各种静态分析技