论文部分内容阅读
快速地从海量数据中智能地挖掘出有价值的知识,一直是人类所迫切追求的,但由于知识发现技术中传统的数据挖掘方法不能很好的处理不完整、不确定信息,从而限制了其在工业上的应用。由于粗糙集方法能有效地处理不确定、模糊型信息,并且不需要提供先验知识,故受到了科研学者以及工业界人士的关注和喜爱。近年来,已被成功应用于人工智能、模式识别、机器学习等领域中。
知识约简方法是粗糙集理论研究的核心内容之一。其中,知识约简包括属性约简以及值约简,目前,许多研究人员主要把精力放在了对属性约简算法的提出和改进上,对值约简算法的研究相对较少。本文分析已有值约简算法发现,目前的值约简算法要么识别率不高,要么时间复杂度较高,而且也不能客观地反映决策规则的决策能力的变化情况。为了尽量解决这一问题,文中利用置信度以及决策熵能客观反映决策规则的决策能力的变化情况的优势,提出了一种基于决策熵的值约简算法。本算法主要是采用等价划分以及容差关系在属性空间上对决策表分解,再根据置信度和决策熵判断每条决策规则中属性值是否该删除,从而得到了最终的规则集,并通过实例分析详细地阐述了算法的思想。
本文仿真实验平台是基于重庆邮电大学计算机科学与技术研究所开发的RIDAS系统,通过对本算法的仿真实验,可知算法最终结果在正确识别率上接近已有规则获取算法的识别率,并且运行时间较低。以及与启发式值约简算法和基于决策矩阵的值约简算法的对比实验,可以验证本文算法是一种可行的值约简方法,接着,对Pima数据集得到的部分决策规则集进行实际意义的分析。但是由于本算法有大量的论域划分以及熵的计算,时间复杂度还有待降低,所以,接下来主要把精力放在怎么样进一步的降低时间复杂度,得到高效率的决策规则集。