数据挖掘中属性约简及规则生成算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:fht5403
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集做为一个重要的数据分析处理理论工具,其优势在于对数据处理时,不需要任何有关于待处理数据预备或额外的信息。基于粗糙集理论的数据挖掘工作已经取得了一定进展,寻求高效的属性约简算法以及规则生成算法是研究的重点。基于正域、分辨矩阵等属性约简算法在一定条件下能够取得比较好约简效果,但这些算法必须求核,增加了时间复杂度,而且没有考虑到条件属性之间的依赖性,不能去除冗余属性,在处理高维数据时无法取得较好的约简效果。在结合粗糙集理论与信息理论的基础上,用信息熵中的对称不确定公式来量度两个属性之间的依赖度,提出了基于属性依赖的属性约简算法,该算法不用求核,直接用条件属性与决策属性之间的依赖度为依据来选择理想的条件属性,并且删除被选条件属性中的冗余属性。从理论及实验数据分析中,通过与其他算法比较,可知该算法具有比较好的约简效果及较小的时间复杂度。深入研究现有规则生成算法的基础上,对基于投影的规则生成算法进行了改进,改进后的算法能消除原算法中的噪声规则;在改进的规则生成算法与提出的属性约简算法的基础上,设计了基于属性约简及规则生成的数据挖掘模型,并对该模型的性能进行了横向对比,验证了该模型的优越性能。用该模型对某公司的员工评分数据库进行挖掘,通过对生成规则的分析,得到了关于提高该公司人才招聘质量的建议。
其他文献
随着机动车的日益普及,交通拥挤问题日益突出。在现有的条件下,如何提高交通控制和管理水平,合理使用现有交通设施,充分发挥其性能,是解决交通问题的有效方法之一。随着计算机硬件
工作流的建模和分析技术是商业过程的组织、管理以及工作流管理系统的设计和实现的基础。在设计和开发工作流管理系统时,首先要使用形式化的模型方法对工作流程进行正确、清
在以往的教学中,形成的是以教师为中心,教师讲授、学生接受的教学模式。这种教学模式有利于知识的传授和积累,有利于课堂教学的组织和实施,但同时也限制了学生自我发挥、探究
Web Service是基于组件的软件平台,是面向服务的Internet应用。它能够统一封装各种信息、行为、数据表现以及业务逻辑流程,而无需考虑应用所在的环境是使用何种系统和设备。
随着无线网络和多媒体通信技术的发展,移动多媒体业务将得到越来越广泛的应用。在移动通信系统中,如何根据用户的需求提供服务质量保证是移动多媒体通信发展过程中面临的重要
在视频压缩中,使用基于块匹配技术的运动估计能够有效去除视频序列之间存在的大量时间冗余,对于提高压缩的效率是至关重要的。采用全搜索算法可以得到最优解,但是它的实现需
随着Intemet领域的不断扩大,互联网络技术的高速发展,C/S和B/S软件架构已经不能满足现在不断出现的新需求。随着微软NET战略的推出,一个新的概念——智能客户端以其灵活充分使用客
信息技术和网络技术的发展的同时也带来了信息海量增长,因此如何将信息有效的分类以便人们更加高效的利用信息是一项艰巨的任务。文本形式的信息广泛应用于信息检索、文本数
搜索引擎是用户利用网络资源不可或缺的工具,离开搜索引擎用户几乎无法利用海量的网络资源。但是目前搜索引擎的查准率有待提高,这是用户继续使用该搜索引擎的必要条件。对于不
演绎数据库与面向对象数据库是对关系数据库技术的两大扩展。演绎数据库既扩展了关系数据库的查询能力,又保持了关系数据库的数学基础。面向对象数据库能够提供丰富的数据建模