基于粗糙集的数据挖掘方法研究

被引量 : 0次 | 上传用户:fcgmqty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术是机器学习、数据库和统计理论相结合的产物,是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含的、先前未知的并有潜在价值的信息的非平凡过程。粗糙集理论是上世纪八十年代初由波兰数学家首先提出的一种刻画不确定性和不完整性知识的数学工具。该理论近年来日益受到广泛关注,已在人工智能与知识发现、模式识别、故障检测、专家系统等方面得到了成功的应用。 本文在总结和借鉴前人经验的基础上,针对数据挖掘中常见的问题,从理论和应用两个方面进行了数据挖掘方法研究。在数据挖掘过程中,直接在原始数据表上进行数据挖掘往往效果不佳,尤其是在数据量较大的情况下;因此对数据表进行变形,然后在变形的基础上进行挖掘是一种行之有效的方法。本文鉴于此分别从数据挖掘中存在的海量高维数据、噪声数据、数据的不完整以及模型的可理解性差等问题出发,分别提出了相应的数据表分解算法。通过引入信息理论与粗糙集分析结合使用,还对加权聚类方法进行了研究。本文的具体研究内容如下: 1.介绍了数据挖掘技术的概念、产生背景、研究任务、主要方法以及研究热点。回顾了粗糙集理论的发展历程,详细介绍了粗糙集理论的基础知识,并对当前国内外粗糙集理论的研究现状进行了详细阐述。 2.在数据挖掘中,直接在海量高维数据集上进行挖掘得到的规则往往数目众多、规则长度长,用于决策分析的有效性低。基于这一发现,本文利用粗糙集理论,提出了一种粗糙集属性选择量度,该量度从提高分类正确性和子数据库纯度的角度着手选择属性用于分类,进而利用该量度提出了一种数据表分解方法。本文详细分析了数据库分解方法的信息论性质,证明利用粗糙集信息量度选择出的属性集是原始决策系统的一个约简,且该分解方法的计算时间复杂度远小于经典粗糙集约简算法的计算时间复杂度,在提高计算速度的同时不会损失信息量。 3.针对海量高维数据库建立分类模型是很困难的,计算时间复杂度高,得到的分类模型可理解性差,难以解释。本文从属性构造的角度出发,基于粗糙集理论,提出一种属性分解方法来识别数据表中的中间概念层次,建立多层分类模型。本文提出了基于粗糙集的一致性搜索指标和最小值指标,利用两个指标来重新标定中间概念层次。这样把原数据表分解为小型数据表分层次进行分类,而且由于中间概念层次物理意义分明,使得模型的可理解性
其他文献
从本世纪60年代起,特别是在激光、光导纤维问世以后,偏振光学这门古老的学科又焕发了青春,并以空前的规模和速度发展。如今偏振光学技术除已应用于光测弹性方法中测定机械结
本文通过煤制低碳烯烃工艺中DMTO工艺和MTP工艺流程及工艺参数进行对比分析,为煤制低碳烯烃工艺的产业化发展提供思路。
<正>在本书中,读者将了解到世界一流管理大师对于领导力的见解。今天的许多领导者都停留在过时的思维中,认为应当"控制"员工,然而,我们处于知识时代,跟以往相比,员工的教育程
2005年10月27日,第十届全国人民代表大会常务委员会第十八次会议对我国个人所得税法进行了第三次修正。此次修正最大的亮点,是把工资、薪金收入的费用扣除额(即免征额)由800
不同的空间观念体现了不同的思维方式与世界观。在对绘画语言的研究中,空间问题始终是一个至为重要的研究课题。 西方自文艺复兴以降发展完善起来的焦点透视,体现了“物必尽
西双版纳傣族村落因其生态特性、干栏式建筑风格和宗教色彩早就进入众多研究者视野 ,就整体而言 ,研究者关注的重心在于其物理范畴。性别禁忌作为一种社会控制方式 ,具有世界
20世纪80年代后期,上海普教科研课题立项制度和成果评奖办法先后出台,在学校办学水平的督导评估中,强调学校要积极开展教育科研,并有一定级别的课题要求,从而形成了促进基层
期刊
采用Lasota种毒和NIBV同胚接种,EDS—76种毒鸭胚培养的方法研制了ND—EDS—76—NIBOEV,并依据有关标准进行了安检和效检试验。30日龄雏鸡接苗1毫升/只,临床无不良反应;接苗0.
目的研究灵芝三萜对四氯化碳(CCl4)所致的小鼠肝损伤的预防和保护作用。方法将小鼠随机分为正常组,模型组,灵芝三萜高、中、低剂量组5组。小鼠皮下注射CCl4油溶液造模。以高
<正> 一、《几何画板》是何物《几何画板》是一种计算机应用软件,一种适合中学数学教师使用的软件。《几何画板》,顾名思义是“画板”,能画各种欧几里德几何图形;能画出解析