论文部分内容阅读
作为知识发现的重要研究分支,数据分类在商务决策中发挥着日益重要的作用,本文从知识发现的角度对基于特定的准则对现有数据、信息进行分类研究的方法作了大致概括与评价,介绍了当前知识发现、分类研究及粗糙集的分类研究的主要成果及研究现状,并在此基础上按照决策表分类知识发现的步骤展开全文基于粗糙集的分类知识发现的研究。本文将数据预处理工作单列一章进行讨论,主要包括信息系统的决策表表示方式,原始决策表中的冗余与不一致数据的清理以及连续数据的离散化等数据预处理技术.将支持度的思想引入粗糙集等价矩阵的定义当中,构造增广等价矩阵,并基于此增广等价矩阵分别针对决策表中的冗余对象和不相容对象设计了两个数据净化算法,在提高数据清理的有效性的同时最大限度地降低数据清理对决策表的破坏,避免原始决策表重要信息丢失;其次,将基于信息熵的属性重要性引入粗糙集的可辨别矩阵构造过程,针对含有多个连续属性值的决策表给出精确离散化算法,充分保留决策表的一致性。同时,为克服精确离散化切点对不同训练子集的选取和不同的离散化技术过于敏感的难题,在精确离散的基础上给出了利用精确切点区间分别构造精确离散区间和模糊离散区间的算法。在决策表的条件属性约简方面,本文区分对待决策表对象较少与较多两种情形提出两种改进的粗糙集的属性约简的方法。针对较少对象的一般决策表,由决策表的核开始,给出了的基于信息熵和相对可辨别矩阵的属性约简的启发式搜索算法,达到缩小搜索空间,减少计算量的目的,利用信息熵和近似分类质量的特点,充分考虑条件属性间的联系;其次,针对大数据集决策表,即决策表中对象过多时,本文将基于扩张矩阵决策表属性约简问题转化为规划问题,并提出免疫算法进行规划模型的求解方法,具体方法是以基于信息熵的属性重要性和粗糙集的近似分类质量求出决策表的核与扩张矩阵,然后以基于离差的免疫算法代替通常的基于信息熵的免疫算法,求出规划问题的解,即决策表的属性约简结果,用于降低分类知识发现中决策表中的冗余与不相关的属性对挖掘质量的破坏,减少要处理的数据量,简化分类器,从而减轻数据噪声的影响,提高泛化性能。在决策表的规则获取方面,改进了粗糙集视野下的一般规则获取,提出了连续型条件属性的规则合并,探讨了分类的概率规则获取以及决策解释等内容。首先,给出基于决策类核属性的值约简的包装算法和基于等价矩阵的两种改进的分类规则获取算法,其中,基于决策类核属性的分类规则获取的值约简算法,保证了生成的规则形式整齐,层次分明,便于检索;其次,对于具有连续的数值型取值的条件属性,在不降低精确度的前提下,提出针对决策类的分类规则合并算法,在具有相同类标号的规则集合中合并连续条件属性区间,这样一方面不会导致矛盾规则的出现,保证了产生分类规则的精度,另一方面避开了后续的反复约简及合并工作,简化了计算,提高分类能力;另外,还探讨了边界区域的分类的概率规则获取问题,以条件概率给出规则的置信度、覆盖度、支持度定义,利用Bayes理论进行决策解释,提出基于粗糙集Bayes理论的决策建议的解释算法,并通过供应链需求集成分析应用案例分析,以计算结果对比证明了本文算法的有效性。将本文给出的分类知识发现方法应用到供应链管理的实践操作当中,主要探讨基于分类方法的供应链需求趋势预测问题,把基于改进的粗糙集的分类方法引入供应链需求预测过程,从供应链企业以往需求预测经验中挖掘出其需求趋势变化与当时的经济、社会、文化等背景之间关系的“预测知识”,并以此知识指导未来的需求预测。针对条件属性层次性较强的情形,本文还提出一种条件属性的合并方法,用来代替通常的决策表属性约简,以突变级数评价法改进粗糙集在属性约简方面的弊端,以基于支持度与可信度的等价矩阵法获取知识,充分利用粗糙集等软计算强大的知识发现能力,将需求预测由经验、技术层面提升到知识层面,使成员充分共享整条供应链上的各个企业的预测知识,改进自身预测精度,提高整条敏捷供应链的运作效率。