基于粗糙集的属性约简准则与约简信息损失的研究

来源 :浙江师范大学 | 被引量 : 0次 | 上传用户:tj_tong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的快速发展,使得数据库中的数据量呈日益增长的趋势。这些数据的特点为:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。对于这些具有多样性、海量型的数据集,数据约简是大数据面临的首要问题。如何采取高效的技术手段,从大量的数据中迅速获取最有价值的信息,使数据集达到约简的效果,成为了一项研究热点。粗糙集理论是用来处理不精确、不完整及模糊信息的一种数学工具。它具有很强的定性与定量分析能力,能有效地表达不确定或不精确的知识,并能利用不确定、不完整的经验知识进行分析、推理。属性约简是粗糙集理论研究的核心内容。研究者们提出了许多有关属性约简准则的方法,它们存在的共同点:属性约简都只是在某一约简准则下保持分类不变、信息不变。本文将围绕“属性约简不损失信息”的观点进行探究与实验,在信息论的基础上,定量的分析属性约简产生的信息损失,并结合实例探究了属性约简信息损失对数据分类的影响,证明了人们长久以来对属性约简信息损失存在的误区,为进一步研究粗糙集的属性约简与分类奠定了信息论基础。本文主要创新点如下:1.提出粗糙集的条件属性约简准则。对粗糙集中存在的属性约简准则进行综合分析与总结,归纳出属性约简满足的一般规律。基于这个一般规律,提出新的属性约简准则方法,并运用实例验证其合理性与有效性。2.提出粗糙集中属性约简信息损失的度量及计算方法。本文从概率论、信息论两个角度出发,定量观察、分析不同的条件属性约简准则,比较约简前后属性发生的变化。信息熵在热力学中是用来表示信息中排除冗余后的平均信息量。本文将借助热力学中信息熵的概念来探究Pawlak粗糙集中属性约简的信息损失,进而给出属性约简信息损失的度量方法及计算公式。3.探究属性约简信息损失与分类准确率两者之间的关系。该实验采取十折交叉验证方法,运用十组数据最终计算的的平均值,作为探究不同数据集各种属性约简的信息损失对数据分类的潜在影响。4.探究属性约简信息损失在多粒度粗糙集中的应用。本章采用联合熵来度量多粒度粗糙集属性约简的信息损失,相对于信息熵而言,增加了决策属性的参与,使数据的划分更加精确细致。根据粒度信息损失的特点与性质,设计粒度信息损失属性约简算法。
其他文献
<正>针对实体经营痛点,快时尚童品供应链平台呼之欲出。近年来,受经济环境影响及成本的高涨,服装行业告别高利润,步入微利时代,加之电商的冲击,服装企业尤其是实体经济面临前
融媒体时代已经来临,新闻报道要更加注重它的视觉表达,图片在新闻传播中作用举足轻重,新闻内容与图片相互结合可让读者在第一时间获取信息。目前,大部分主流媒体通过照片来增
结合IT项目的特点,探讨IT企业在进行项目管理中如何运用关键链法和赶工法改进项目的进度管理绩效、调整项目进度。重点研究如何利用赶工说服项目干系人接受关键链法中提出的
欣赏和传播幼儿文学都需要有一颗不老的童心 ,有了童心才能更好地挖掘和体味幼儿文学的美学特质———幼儿情趣 ,才能完整完美地向幼儿传播这种美。在欣赏和传播幼儿文学中 ,
将徽文化中的徽派建筑造型应用于文房四宝的包装造型和结构设计中。借鉴徽派建筑的三合式院落结构,将整个包装盒设计为3个房屋及1个天井的结构布局形式,分开放置具有不同外形
钛合金材料的导热系数小、高温化学活性大、弹性模量低、与其他金属材料摩擦系数大等特性使它成为一种典型的难加工材料。本文通过理论分析与试验研究相结合的方式,模拟和研
《庄子》与神话有着极为密切的关系,对于这一点,许多学者早有共识。大量神话传说的存在,是造成《庄子》这部书充满奇异文化景观的重要因素之一。从神话这一背景去关照《庄子
目的:了解失眠门诊与就诊精神科门诊对象有什么不同之处。方法:收集2009、2010、2011年3月份所有在新疆精神卫生中心睡眠科和精神科就诊的共1 715个初诊病例,进行回顾性分析
<正>2013年,北京教育学院"基于义务教学均衡发展的农村教师城镇研修的实践与研究"获第四届北京市基础教育教学成果一等奖。自2008年开始,北京市教育委员会在城镇优质学校设立