论文部分内容阅读
粗糙集理论是由波兰数学家Pawlak教授提出的一个处理具有模糊性、不确定性和非精确性问题的数学工具,它不需要任何先验的知识或附加的信息就能给出正确的分类规则。上世纪九十年代初,加拿大学者Yao将Bayes风险决策引入到粗糙集理论中建立了决策粗糙集模型,并将粗糙集的正域和负域扩展成为正域、负域和边界域,同时以风险最小化为原则给出了决策粗糙集的决策规则。属性约简问题一直是粗糙集理论研究的核心问题,但它被证明是一个NP-hard问题,传统的属性约简算法只能求解维数较低的小规模数据问题,而基于智能优化算法的属性约简方法取得了显著的效果,大大降低了获得最小约简的时间复杂度。但已有算法的全局寻优能力较弱,对于具有多个最小决策的属性约简问题而言,显然不能找到全部或更多的最小约简,同时也不总是能找到一个决策表的最小约简。为此,本文鉴于回溯搜索优化算法较强的全局搜索性能,提出了基于回溯搜索算法的决策粗糙集属性约简算法,并以决策风险最小化为目标对该问题进行了研究,取得了一定的成果:1.在传统的Pawlak代数粗糙集模型的基础上引入了最小风险Bayes决策,建立了能够容忍噪声的决策粗糙集模型,该模型在上下近似集中引入了概率包含关系,并通过最小化风险Bayes决策的原则给出了概率阈值的确定方法,从而拓宽了粗糙集理论的研究边界及应用领域;2.决策粗糙集模型是基于损失函数的,文中依据风险损失最小化原则,结合粒子群优化算法获得了划分正域、负域和边界域的概率阈值,构建了决策粗糙集模型的决策规则;3.定义了基于决策风险最小化的决策粗糙集属性约简并给出了基于最小风险Bayes决策的风险损失计算公式,据此提出了基于决策风险最小化的决策粗糙集属性约简问题,并将其转化为最优化问题求解,在此基础上给出了新的适应度函数计算方法,最后提出了基于回溯搜索算法的决策粗糙集属性约简算法;4.为了验证所提出的属性约简算法的有效性,给出了实际的算例分析,通过与已有算法的比较,证明了该算法的全局搜索性能,并通过对UCI数据库中数据集的实验分析,表明该算法不仅能够找到全部或更多的最小属性约简结果,而且不因运行次数的增加而出现较大波动,具有较高的稳定性。