大数据集的属性选择算法的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:suuuper4w
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是最近几年来随着数据库和人工智能发展起来的一门新兴的数据库技术。其处理对象是大量的日常业务数据,目的是为了从这些数据中抽取一些有价值的知识或信息。数据挖掘算法对其处理的数据集合一般都有一定的要求,比如数据完整性好、数据的冗余性少、属性之间的相关性小。然而,实际系统中的数据一般都具有不完全性、冗余性和模糊性,很少能直接满足数据挖掘算法的要求。另外,海量的实际数据中无意义的成分很多,严重影响了数据挖掘算法的执行效率,而且由于其中的噪声干扰还会造成无效的归纳。数据预处理已经成为数据挖掘系统实现过程中的关键问题。 数据预处理是数据挖掘的重要一环,而且必不可少。属性选择作为数据预处理的重要步骤,已经成为一个非常热门的话题。尤其是在面对包含数量巨大的记录和大量的与挖掘任务不相关的属性的大数据集时,属性选择就更加重要。 粗糙集理论是一种刻划不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。粗糙集理论的应用和其算法的研究,是近年来知识发现、数据挖掘领域的一个热门话题。粗糙集当中一个核心问题就是约简,所以,有关约简算法的研究也有很多。 本文简要介绍了属性选择问题和粗糙集模型,并研究了基于粗糙集模型的属性选择算法。由于传统的粗糙集模型没有与关系数据库系统结合,该模型许多计算的基本操作都是在平面文件上进行的,没有利用高性能的数据库集合操作。鉴于此,研究人员提出了新的基于数据库系统的粗糙集模型,在关系代数的基础上对核属性和约简进行重新定义,从而利用高效的面向集合的数据库系统操作。 本文对基于数据库系统的粗糙集模型进行了改进,提出了两个新的基于数据库系统操作的定义:属性集合的分类准确度和属性价值;并在此基础上,我们提出了基于数据库系统的属性选择算法和利用遗传算法的属性选择算法;最后对算法的性能进行了测试,得出相应的结论。
其他文献
6个桉树无性系和1个对照品种(巨桉实生苗)在相同立地条件下的造林对比试验结果表明:6个桉树无性系和1个对照品种在本区生长均表现良好,不同桉树无性系之间、各无性系与对照之间
东北林区是杨属物种较集中的地区,在黑龙江省大小兴安岭、完达山、张广才岭以及老爷岭山地等广为分布着青杨派的大青杨、香杨、甜杨,白杨派的山杨等物种,其中大青杨(Populus u
本文对传统理性观及其两种典型的形式——形上理性观与工具主义理性观进行了清理与批判,并对现代西方哲学的理性批判进行了反思,指出现代西方理性批判的基本理路及其双重性的
混凝土防渗墙起源于欧洲,它是水井、石油钻井和地下浇筑混凝土技术的综合体,目前在我国水利工程施工领域的应用十分广泛。文章在结合了伊吾县四道白杨沟水库工程拦河坝的碾压
学校体育活动伤害事故呈逐年上升之势,由此产生的经济、法律纠纷给学校、体育教师、家庭和学生本人都造成了严重的后果和不良影响。 本研究采用文献研究、问卷调查、专家
简阳县位于沱江两岸,地处成渝、川鄂公路线,全县有12个区,96个乡,14个镇,人口130万,农户29万户,主产粮食和棉花。基本上是一个农业大县。县公司自1984年6月建立以来,截止去年底保险干
中原油田地层构造是一个复杂的断块油气田构造,断层多、产层亏空严重,地层又经过长期注水开采,存在高低压地层交错,泥页岩水化膨胀,局部地层压力过大,造成地层岩石流动及蠕变
目的:脐带血(UCB)内含有丰富的造血干细胞,能够有效地用于造血干细胞移植,挽救了许多患病儿童的生命,但由于从UCB采集的有核细胞(NC)和造血干细胞(CD34+)数量有限,在成年病人
一、一九八六年保险工作的回顾一九八六年,我国的政治形势和经济形势都很好。全国各族人民齐心协力进行四化建设,各项改革顺利推进和深入发展,社会主义精神文明建设取得了重大进
“买断工龄”作为国有企业改革下岗分流的一种正式制度,本身具有适应时代发展和社会需要的优越性。本文通过对于大庆采油五厂、长春燃油机厂两大国有企业买断工龄职工的调查