论文部分内容阅读
摘要:粗集理论的核心思想是,在保持知识库分类能力不变的前提下,删除其中不相关或不重要的知识,从而导出问题的决策或分类规则。本文将粗集理论应用于煤矿井下危险度分析中,通过属性约简和规则约简得到决定危险度的最小规则,简化了问题的研究。
关键词:粗集;属性约简;决策系统;规则
中图分类号:O741+.2 文献标识码:A 文章编号:
引言
1982年,波兰华沙理工大学Z. Pawlak教授等一批人提出了用粗糙集理論(Rough Sets)研究不完整数据、不精确知识表达、学习、归纳方法。基于粗集的理论、方法不同于传统的概率统计方法,也不同于模糊集合论的方法。它是从不同角度,用不同方法表达处理客观世界中存在的不确定性。
粗集理论是目前国内外学术界的一个热点研究。以波兰为中心的东欧地区,重点研究粗集理论的代数、拓扑结构,以理论研究为主。在加拿大、澳大利亚等地以算法等应用研究为主。在美国以实用性的应用研究为主。近几年,粗集理论的学习与应用研究在各科研院所和重点院校已不鲜见。但从总体讲,粗集理论的应用研究在我国尚属起步阶段。
1 粗集基本理论
设 为决策表,如果和某条决策规则前件相同的所有其它决策规则,其后件也都与该条决策规则的后件相同,则称该条决策规则是一致性规则,或协调规则;如果决策表中所有决策规则都是一致性决策规则,则称决策表为一致性决策表,否则称为不一致性决策表。
设 为决策表,且
,
等价类 是 的子集, 的 正域为
=
即 是由 对 划分等价类中完全包含在 中的那些等价类的并集,所以, 的 正域中样本可以按条件属性精确分类。
给定一个决策表 ,问题是决策规则中的条件属性是否都是必要的,不必要的应消去,称为属性约简。
1.1 决策表属性约简
若 是冗余属性,则将a去掉后的属性集 与 具有同样的分类能力,即有下面相同的等价类族:
若 是独立的,即 中任意去掉一个属性,都将改变其分类能力,则 就是 的一个约简。 的约简是 中独立的子集 并且 与 具有同样的分类能力,而 中的属性对 来说都是冗余属性。
如果 ,满足 是关于决策属性集 独立的,并且 ,则 是 的 约简。 中的所有 约简的交 称为 的核,记作 。
1.2 属性值约简
属性值约简是针对相对约简 而言的,或说属性值约简是对决策表上每一条决策规则来说的。算法步骤:
步骤1:先求只包含核值的决策表。方法是:对每一条决策规则,去掉一个属性值,即刻观察是否出现与该条规则不一致的规则,如有则保留该属性值,该属性值为核值;如无,则该属性值是可约去的,不是核值。
步骤2:根据核值表,分别找出所有决策规则的约简,可得包含所有约简决策规则的决策表。
步骤3:消去所有过剩规则
2实例应用
煤矿井下的危险,主要有中毒和爆炸两大类,各气体浓度甲烷、一氧化碳、硫化氢等,以及环境温度、风量等指标都对中毒和爆炸起作用。单一的气体指标并不能准确反映井下的实际危险程度,必须综合考虑多种气体及其他因素相互作用,才能做出准确的预测。
本文选择20个矿井环境数据样本。决策表为 ,其中 是两个属性子集, 为条件属性, 为决策属性。 , = {硫化氢(%),温度(℃),风速(m/s),瓦斯(%),一氧化碳(%),氧气(%) }。 是决策属性,5表示不安全,4表示较不安全,3 表示一般不安全,2 表示较安全,1 表示安全。
(1)由于条件属性值均为连续值,所以必须先离散化处理:将条件属性值作模糊离散化。设属性 将其范围 分成3个区域,每一区域对应一模糊子集,其值分别为0、1、2。构造初始决策表1。
初始决策表1
(2)检查初始决策表是否是一致表。因为所有相同条件对应的输出都是相同的,所以表1是一致的。
(3)消去重复行。由表1知:4,8行重复;6,10行重复;12,16行重复;18,20行重复。因此,消去8、10、16和20行。
(4)从决策表中消去某些条件属性列,即识别条件集合 中的 可省略和不可省略的条件属性,将 可省略的条件属性列消去。经计算,该决策表的第 6个属性可以省略。
(5)冗余属性值处理及简化决策规则获取。经过上面两步的处理,得到了简化决策表。
(6)得出最小规则。根据规则约简表得出:
; ; ; ;
3结束语
本文基于粗集理论,应用属性约简方法确定出影响煤矿井下安全度的关键因素,并通过规则约简得到决定安全等级的最小规则。使得煤矿井下安全度评价变得简单容易,为解决问题带来很多方便。
粗集理论和其他软计算方法的结合能提高数据挖掘能力,这是数据挖掘的一种趋势。基于粗集的数据挖掘在以下方面有待深化:
1,粗集理论与其他软计算方法的进一步结合;
2,粗集只是采掘的递增算法;
3,粗集基本运算的并行算法及硬件实现,将大幅度改善数据挖掘的效率。面对大量的数据,有必要设计搞笑的启发式简化算法或研究实时性较好的并行算法;
4,扩大处理属性的类型范围,粗集理论只能处理离散属性,因此需要设计连续值的离散算法。
参考文献
[1]温国锋,陈立文.基于粗集和神经网络的煤炭资源资产分类研究[J].数学的实践与认识,2010,40(3):48-52.
[2]刘清.Rough集及Rough推理[M].3版,北京:科学出版社 ,2005.
[3]吕松涛,郭志林.基于粗集理论的企业自主创新能力评价模型[J].西南民族大学学报,2010,36(1):66-69.
[4]董四辉,阎善郁,王洪德.基于粗集的水文要素预报模型[J].系统工程学报,2010,25(1):24-28.
[5]徐广华,王良民,詹永照.基于粗集的交通提醒系统控制电路约简方法[J].计算机工程,2010,36(17):102-104.
[6]刁占峰,张丹,张同军.基于粗集-模糊综合评价法的水质指标约简研究[J].安徽农业科学,2010,38(26):14582-14584.
关键词:粗集;属性约简;决策系统;规则
中图分类号:O741+.2 文献标识码:A 文章编号:
引言
1982年,波兰华沙理工大学Z. Pawlak教授等一批人提出了用粗糙集理論(Rough Sets)研究不完整数据、不精确知识表达、学习、归纳方法。基于粗集的理论、方法不同于传统的概率统计方法,也不同于模糊集合论的方法。它是从不同角度,用不同方法表达处理客观世界中存在的不确定性。
粗集理论是目前国内外学术界的一个热点研究。以波兰为中心的东欧地区,重点研究粗集理论的代数、拓扑结构,以理论研究为主。在加拿大、澳大利亚等地以算法等应用研究为主。在美国以实用性的应用研究为主。近几年,粗集理论的学习与应用研究在各科研院所和重点院校已不鲜见。但从总体讲,粗集理论的应用研究在我国尚属起步阶段。
1 粗集基本理论
设 为决策表,如果和某条决策规则前件相同的所有其它决策规则,其后件也都与该条决策规则的后件相同,则称该条决策规则是一致性规则,或协调规则;如果决策表中所有决策规则都是一致性决策规则,则称决策表为一致性决策表,否则称为不一致性决策表。
设 为决策表,且
,
等价类 是 的子集, 的 正域为
=
即 是由 对 划分等价类中完全包含在 中的那些等价类的并集,所以, 的 正域中样本可以按条件属性精确分类。
给定一个决策表 ,问题是决策规则中的条件属性是否都是必要的,不必要的应消去,称为属性约简。
1.1 决策表属性约简
若 是冗余属性,则将a去掉后的属性集 与 具有同样的分类能力,即有下面相同的等价类族:
若 是独立的,即 中任意去掉一个属性,都将改变其分类能力,则 就是 的一个约简。 的约简是 中独立的子集 并且 与 具有同样的分类能力,而 中的属性对 来说都是冗余属性。
如果 ,满足 是关于决策属性集 独立的,并且 ,则 是 的 约简。 中的所有 约简的交 称为 的核,记作 。
1.2 属性值约简
属性值约简是针对相对约简 而言的,或说属性值约简是对决策表上每一条决策规则来说的。算法步骤:
步骤1:先求只包含核值的决策表。方法是:对每一条决策规则,去掉一个属性值,即刻观察是否出现与该条规则不一致的规则,如有则保留该属性值,该属性值为核值;如无,则该属性值是可约去的,不是核值。
步骤2:根据核值表,分别找出所有决策规则的约简,可得包含所有约简决策规则的决策表。
步骤3:消去所有过剩规则
2实例应用
煤矿井下的危险,主要有中毒和爆炸两大类,各气体浓度甲烷、一氧化碳、硫化氢等,以及环境温度、风量等指标都对中毒和爆炸起作用。单一的气体指标并不能准确反映井下的实际危险程度,必须综合考虑多种气体及其他因素相互作用,才能做出准确的预测。
本文选择20个矿井环境数据样本。决策表为 ,其中 是两个属性子集, 为条件属性, 为决策属性。 , = {硫化氢(%),温度(℃),风速(m/s),瓦斯(%),一氧化碳(%),氧气(%) }。 是决策属性,5表示不安全,4表示较不安全,3 表示一般不安全,2 表示较安全,1 表示安全。
(1)由于条件属性值均为连续值,所以必须先离散化处理:将条件属性值作模糊离散化。设属性 将其范围 分成3个区域,每一区域对应一模糊子集,其值分别为0、1、2。构造初始决策表1。
初始决策表1
(2)检查初始决策表是否是一致表。因为所有相同条件对应的输出都是相同的,所以表1是一致的。
(3)消去重复行。由表1知:4,8行重复;6,10行重复;12,16行重复;18,20行重复。因此,消去8、10、16和20行。
(4)从决策表中消去某些条件属性列,即识别条件集合 中的 可省略和不可省略的条件属性,将 可省略的条件属性列消去。经计算,该决策表的第 6个属性可以省略。
(5)冗余属性值处理及简化决策规则获取。经过上面两步的处理,得到了简化决策表。
(6)得出最小规则。根据规则约简表得出:
; ; ; ;
3结束语
本文基于粗集理论,应用属性约简方法确定出影响煤矿井下安全度的关键因素,并通过规则约简得到决定安全等级的最小规则。使得煤矿井下安全度评价变得简单容易,为解决问题带来很多方便。
粗集理论和其他软计算方法的结合能提高数据挖掘能力,这是数据挖掘的一种趋势。基于粗集的数据挖掘在以下方面有待深化:
1,粗集理论与其他软计算方法的进一步结合;
2,粗集只是采掘的递增算法;
3,粗集基本运算的并行算法及硬件实现,将大幅度改善数据挖掘的效率。面对大量的数据,有必要设计搞笑的启发式简化算法或研究实时性较好的并行算法;
4,扩大处理属性的类型范围,粗集理论只能处理离散属性,因此需要设计连续值的离散算法。
参考文献
[1]温国锋,陈立文.基于粗集和神经网络的煤炭资源资产分类研究[J].数学的实践与认识,2010,40(3):48-52.
[2]刘清.Rough集及Rough推理[M].3版,北京:科学出版社 ,2005.
[3]吕松涛,郭志林.基于粗集理论的企业自主创新能力评价模型[J].西南民族大学学报,2010,36(1):66-69.
[4]董四辉,阎善郁,王洪德.基于粗集的水文要素预报模型[J].系统工程学报,2010,25(1):24-28.
[5]徐广华,王良民,詹永照.基于粗集的交通提醒系统控制电路约简方法[J].计算机工程,2010,36(17):102-104.
[6]刁占峰,张丹,张同军.基于粗集-模糊综合评价法的水质指标约简研究[J].安徽农业科学,2010,38(26):14582-14584.