基于相似矩阵的折半属性约简算法

来源 :硅谷 | 被引量 : 0次 | 上传用户:amies
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 针对大多数属性约简算法时间复杂度比较高的问题,利用粗糙集理论提出了一种新的解决办法,该方法基于相似矩阵概念,利用属性在相似矩阵中出現的频率给出了属性重要性的计算公式,以此作为启发式知识来约间决策表中的冗余属性,并将折半查询的思想运用到算法中以加快约简的速度。实验表明该算法是简单有效的。
  关键词 粗糙集;相似矩阵;折半属性约简
  中图分类号:TP18 文献标识码:A 文章编号:1671-7597(2013)16-0051-01
  粗糙集理论是一种能有效地分析不精确、不一致、不完整等各种不完备信息、揭示潜在规律的处理不确定性和模糊性数据的工具。属性约简是粗糙集理论研究的核心内容之一,到目前为止,已经提出了多种改进型的属性约简算法。
  本文提出了一种新的属性约简算法,在文中给出了相似矩阵的定义,从另一个角度来计算属性的重要性,并且将折半查找的思想运用到算法中,加快了筛选候选属性的速度。
  1 基于相似矩阵的折半属性约简算法
  1.1 算法的基本思想
  可辨识矩阵主要是从对象与对象之间的差别来研究属性约简。
  1.1.1 相似矩阵的定义
  cij= {a∈C | xi(a)=xj(a)},xi(d)≠xj(d);
  cij=|,其他
  Cij代表两个对象之间的相似点,也就是不能辨别对象的属性集。根据相似矩阵的定义,得到下面的结论:属性在相似矩阵中出现的次数越多,在相似矩阵中的项长度越短,则代表该属性在反映对象相似性上起的作用越大,因此在区别对象时,重要性就越小。根据上述观点,本文基于相似矩阵的属性频率给出了属性重要性的计算公式:
  F(a)= -
  其中,当a时,=0;否则=1。card()表示包含属性的个数。
  推论1:当且仅当card()=card(c)-1时,C-属于核属性。
  1.1.2 折半约简概述
  现在很多约简算法都是从R=核(core(c))开始,判断R是否为一个约简,是则终止,否则根据属性的重要性定义,将重要性最大的一个加入到R中,再次测试是否为约简,若是则终止,否则,继续上述过程。
  1.2 算法过程描述
  本文提出具体过程描述:
  输入:一致决策表S=(U,C∪D,V,F),其中C = {a1,a2,…,an}
  输出:决策表的约简集合R
  Step 1:决策表S转换为相应的相似矩阵M,求出核属性core(C),并计算剩余属性的属性重要度,然后将剩余属性根据重要度由大到小进行排序,放进数组Z.
  Step 2:初试化R=core(c),如果=,则执行步骤step4,否则执行步骤step3。
  Step 3:初试化min=1;max=card(C)-card(core(C))
  while(true){
  Tempt=R; //保存改变前的R
  Mid=min+max/2;
  将数组z中第min个到第mid个加入到R中, 计算;
  If(<){
  If(max-mid<=1){
  ① 将数组z中第max个加入R中;
  ② 退出循环; //退出位置一
  }
  else {
  min=mid+1;
  } }
  Else if(=){
  If(max-mid<=1){
  ③ 退出循环;//退出位置二
  }
  Else{
  ④ max=mid;
  R=tempt; //将R还原为本次改变前的状态
  }}}
  Step4:程序结束,R就是要求的约简。
  1.3 算法时间复杂度分析
  该算法step1所需的时间复杂度为O(|C|*|U?|*|U|),进入是step2后,关键的步骤是求取属性的近似精度,求取近似精度的时间复杂度为O(|u|*|u|*|u|)。由于采用了折半查找的思想,使得在最坏的情况下,不需要遍历整个条件属性集,只需遍历log|C|次,故时间复杂度为O(log|C|*|u|*|u|*|u|)。
  2 算法实例分析
  给定一致信息表S=(U,A,V,F),其中U={x1,x2,x3,x4,x5,x6,x7,x8,x9,x10},A = {a,b,c,d,e,f,g,h},其中条件属性C={a,b,c,d,e,f,g},决策属性D={h},由表1给出。
  首先执行step1与step2,得到相似矩阵,并求出核属性core(C)={A},及C/core(C)属性的重要性,得到:f(b)、f(c)、f(d)、f(e)、f(f)、f(g),将候选属性按重要性的定义由到大到小排序放进数组Z.={a,b,e,f,d,c,g},直至max-mid<=1,则将第max个加入到R中,退出循环,R={a,g,b,e}。
  可以看到仅经过两次扩展计算,就得到了最后的约简,如果按传统的算法得扩展三次。可见,提高了约简的速度。当候选属性更多时,本算法的优越性越明显。
  参考文献
  [1]曾黄麟.粗集理论及其应用(修订版)[M].重庆大学出版社,1998.
  [2]刘震宇.粗糙集约简算法在知识发现中的研究与应用[D].西安:西安电子科技大学,2002.
  [3]苗夺谦,胡桂荣.知识约简的一种启发式算法[J].计算机研究与发展,1999,36(6):681-684.
其他文献
摘 要 随着云存储技术的迅猛发展,移动设备对其的依赖也越来越大,以三大智能手机平台为领头羊,众多云存储服务提供商已在明暗间对这一领域开展了激烈的争夺战。而存储接口,作为联系移动设备与云存储端的重要中间端,其技术的发展直接影响着移动设备与云存储端的和谐发展,需要我们严肃对待.文章从宏观的角度,对面向移动设备的云存储接口进行分析。  关键词 移动设备;云存储;通信接口  中图分类号:TP333 文献标
摘 要:伴随着社会经济的快速发展,地铁行业的发展随之活跃,降水是深基坑施工中的一道重要环节。本文结合南京地铁降水施工的一些经验做出简要探讨。  关键词:地铁;深基坑降水;技术;  中图分类号:U231文献标识码: A  前言   当下,随着我国城市地铁的大量建设,深基坑开挖面积越来越大、深度越来越深,而开挖所遇到的地质环境也越来越复杂,这就给地铁深基坑降水施工提出了新的问题和挑战。同时,地铁基坑施
期刊
超分辨率图像重建技术就是利用信号处理的方法,从多幅低分辨率图像中提取更多细节信息,重建出一幅或多幅高分辨率图像的技术。文章介绍了超分辨率图像重建的概念,并且探讨超分辨率图像重建的意义和需求,然后着重研究了目前的几种主要超分辨率图像重建算法,并讨论了关于目前超分辨率图像重建算法的一些思考。
摘 要 目前移动核心网MGW至RNC(或BSC)间通常由155M光传输通道来连接,对于MWG和RNC(或BSC)分别安装在不同地点的情况,中间必须借助传输设备来提供155M光传输通道进行物理上的连接。经过反复试验,结果表明:传统的传输设备业务配置方法无法解决两条155M光传输通道主备用保护问题,而通过传输网设备的特殊巧妙配置可以成功实现两条155M光传输通道主备用保护倒换。  关键词 MGW;RN
【摘要】:本文根据笔者参与过的公路旧桥加固与管理经验总结,结合目前省内多数公路旧桥加固与管理的方法,有关加固与管理方法进行浅析。   【关键词】:桥梁;旧桥加固;管理   中图分类号:U445文献标识码: A    青海省西宁市的公路旧桥一般都具有一个通性:荷载等级低、使用年限长的特点。从技术资料分析,大多数桥梁是三不知:①不知基底地质;②不知基础深度;③不知隐蔽部分的尺寸。从桥梁技术状况分析,由
期刊
摘 要 为克服再造烟叶与天然烟叶混合制丝给卷烟品质带来的不利影响和适应当前制丝生产新工艺的要求,通过设计三层工业控制网络结构,研究各层网络通信的实现方法,建立了基于工业控制网络的再造烟叶单独柔性制丝线。结果显示:基于工业控制网络的再造烟叶柔性制丝线生产能力达到2000 kg/H,实现了再造烟叶单独成丝后出口含水率12%-13%的控制目标。因此,造纸法再造烟叶单独柔性制丝线能够克服其与天然烟叶混合加