非协调决策系统的属性约简方法及算法研究

来源 :计算机光盘软件与应用 | 被引量 : 0次 | 上传用户:cao678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:经典的基于辨识矩阵的属性约简快速算法在非协调决策系统上不能有效地得到约简,针对该问题,提出一种新的辨识矩阵快速约简方法,有效地解决了该问题。利用标准UCI数据集模拟实验,与经典方法相比,进一步减少了属性的个数,凸显其有效性和可靠性。
  关键词:辨识矩阵;属性约简;决策系统;特征选择
  中图分类号:TP301.6
  属性约简是机器学习和人工智能最重要的研究方向之一[1,2],其作用在于消除冗余的列,从而获得更精简的数据。目前,这方面出现了许多优秀的结果,譬如基于属性依赖度的选择方法[3,4],利用互信息进行属性约简的方法[5],采用模糊粗糙集进行约简[6]等。随着辨识矩阵和辨识函数概念的提出,利用辨识矩阵和辨识函数实现了属性约简,并得到了广泛的研究[7-9]。然而,非协调决策系统的经典的辨识矩阵贪心算法会陷入局部最优解,因此,需要做进一步的研究。
  1 非协调决策系统的经典辨识矩阵贪心算法及其缺点
  给定非协调决策系统IDS=(U,C∩D,V,f),其辨识矩阵定义为:
  M=(M(x,y)),
  其中M(x,y)定义为
  显然,矩阵中元素是由处于不同决策类中的对象和属性值不同的属性组成。
  基于辨识矩阵属性频率的属性约简贪心算法,根据属性在辨识矩阵里出现的频率作为衡量属性重要程度的依据。这意味着,属性出现的次数越高,我们认识其越重要。基于辨别矩阵属性频率属性约简的贪心算法如下:
  算法1:基于辨识矩阵属性频率的非协调决策系统属性约简的贪心算法
  输入: IDS=(U,C∩D,V,f)
  输出: red
  (1)计算M;
  (2)若M=0,返回red;
  (3)对所有a∈C- red,计算a的频率;
  (4)选择最大频率的属性,red = red ∩{ax},令M中包含ax的元素为0;
  (5)如果M为0矩阵,返回red;否则转第3步。
  该算法属性选择有两个循环,时间复杂度为O(丨C丨2),另外计算单个属性的频率的时间复杂度为O(丨U丨),因此该算法总的时间复杂度为:O(丨U丨丨C丨2)。
  例1:给定非协调决策系统IIS=(U.C∪D,V,f)如表1,其中C={a,b,c,d,e}是条件属性,D是决策属性。
  表1 非协调决策系统
  很容易验证该系统是非协调决策系统。而利用快速算法1,求得的结果是{e,a,b,d},然而{e,a,b,d}不是约简,这是一个局部最优解,因此经典算法不能有效地计算出约简,导致结果仍然有一定的冗余性。本文提出一种新的属性约简方法来解决此问题。
  2 适用非协调决策系统的改进的辨识矩阵属性约简算法
  因为贪心算法容易陷入局部最优解,因此基于辨识矩阵的属性约简贪心算法也会陷入局部最优解。另一方面,因为在算法中,一旦选择了一个属性,则将它及已选好的子集中能够区分对象的辨识矩阵元素都删除,而不能用这些属性区分该对象的元素并不删除,所以并不会带来数据分类精度的损失。那么只会导致结果中存在冗余。因此,针对该情况,我们提出一种可以有效避免冗余的辨识矩阵属性约简快速算法。
  算法2:改进的基于辨识矩阵的非协调决策系统的属性约简快速算法
  输入: IDS=(U,C∩D,V,f)
  输出: red
  (1)根据red,计算辨识矩阵M;
  (2)如果M=0,转第6步;
  (3)对所有a∈C-red,计算a的频率;
  (4)选择最大频率的属性ax,red=red∪{ax},令M中包含ax的元素为0;
  (5)如果M不为0矩阵,转第3步;
  (6)对a∈red,如果νred(D)=νred-a(D),那么red=red-{ax};
  (7)返回red;
  显然,算法2与算法1具有相同的时间复杂度。
  例2:继续例1,利用算法2,可以得到约简red={e,a,d}。因此,相对于经典算法,算法2有效地获得了约简。该算法能够避免陷入局部最优解。
  3 结论
  本文提出了一种适用于非协调决策系统的辨识矩阵属性约简快速算法,该算法能够解决经典贪心算法陷入局部最优问题,也能消除所带来的冗余,有效的得到了约简。实例分析显示了其有效性和实用性。
  參考文献:
  [1]张文修,吴伟志,梁吉业.粗糙集理论与方法[M].北京:科学出版社,2001:5-7.
  [2]PawlakZ.Roughsets[J].InternationalJournalofComputerandInformationSciences,1982,11:341-356.
  [3]李克文,吴孟达,张雄明.约简的一种启发式算法[J].计算机工程与科学,2004,26(1):92-94.
  [4]王天江,晏伟峰,漆志旺.一种基于RoughSet的启发式属性约简算法[J].计算机工程与科学,2007,29(2):86-88.
  [5]R.Bhatt,M.Gopal.Onfuzzy-roughsetsapproachtofeatureselection[J].PatternRecognitionLetters,2004,26(7):965-975.
  [6]朱江华,李海波,潘丰.基于遗传算法和模糊粗糙集的知识约简[J].计算机仿真,2007,24(1):86-89.
  [7]王柯,朱启兵.一种基于差别矩阵的启发式属性约简算法[J].计算机工程与科学,2008,30(6):73-75.
  [8]任小康,吴尚智,马如云.基于可辨识矩阵的属性频率约简算法[J].兰州大学学报,2007,43(1):138-140.
  [9]龙鹏飞,蔡翱鹏,陈曦.基于遗传算法和区分矩阵的属性约简[J].计算机工程与科学,2010,32(11):104-106.
  作者单位:临沂大学信息学院,山东临沂 276005
其他文献
摘要:本文首先分析当前地方高校计算机基础课所面临的一些问题,进而针对这些问题提出一些改革措施,旨在提高学生的计算机技术水平。  关键词:地方高校;计算机基础课;创新能力  中图分类号:TP3-4 文献标识码:A文章编号:1007-9599 (2013) 05-0000-02  1 当前地方高校计算机基础课所面临的问题  1.1学生基础相差很大。我国目前的计算机基础课是要求从小学就要开设的,但是放眼
从科学和逻辑学质的规定性入手对两者间的关系展开分析,力求证明:科学作为把握事物具体真理的知识体系和探求真理的发展过程都不得不应用逻辑。
课程决策是课程运作的一个重要环节;转变课程决策机制。加强校本课程决策,是当前我国基础教育课程改革的必然趋势,校本课程决策面临着多方面的问题;为提高校本课程决策的水平,我们
唐修<晋书>取材<世说>,一直为人诟病.其立论标准,分别基于史料采集与史传编著两个视角.但是,就前者而言,唐修<晋书>取材<世说>,恰恰不是"做错"而是"做对"了;就后者而言,它却
改良了测量红细胞压积(Hct)的传统方法,通过数学校正,在减低离心机转速从而降低运转噪声后一样可获得准确的Hct值;通过激光扫描降低了目测造成的随机误差;辅以数据输出与存储
摘要:云安全技术是一种全新的网络安全技术,它改变了病毒被查杀的状态,化被动防御为主动防御。云安全技术是云计算在网络安全领域的推广和应用,它大大提高了计算机网络病毒的查杀能力和查杀效率。  關键词:云安全技术;云计算;计算机网络病毒  中图分类号:TP393.08 文献标识码:A 文章编号:1007-9599 (2013) 02-0000-02  目前出现计算机病毒的问题越来越多,已经到了比较严重的