论文部分内容阅读
信息熵是度量Rough预测(Rough Set Prediction)的结果的不确定性的一种非常有效且有竞争力的方法。在Rough集中,Miao和Wang利用信息熵定义了对应的粗熵(Rough Entropy),并证明了一些重要的基本性质。Duntsch和Gediga通过定义不同的熵,给出了三种Rough预测的模型(分别为:Hoc(Q→d),H(Q→d)和丑(Q→d))。在本文的第一章中,我们讨论了Rough集理论中条件熵的表达和描述:证明了在一定条件下,由Duntsch和Gediga给出的Rough集理论中的条件熵和Rough集的粗糙性(Roughness)有一定的联系,得出了一些性质:推翻了Wang在1985年宣布的一个猜测;并建立了一个非常有价值的新结果(该结果已被《软件学报》录用),并且Duntsch和Gediga给出的一个非常重要的结果是我们所得到的新结果的特殊情况,即我们推广了Duntsch和Gediga的结果;另外,我们定义了负熵(Negative Entropy)的概念,利用负熵我们简化了条件熵H(Q→d),Hbc(d|Q)和H(d|Q)的描述和表达,并证明了有关负熵的一些有价值的性质。 在数据挖掘(DataMining)中,目前Rough集理论受到非常重要的重视,是因为在Rough集理论中新知识的获得是基于数据内部特征来描述的,它不象模糊集和D-S证据理论(模糊集需要隶属度,D-S证据理论需要先验概率)。为了获取新知识,我们需要一种好的度量方法来度量给定数据的不确定性以及度量给定数据与预测知识之间的不确定性。在信息系统理论中,许多专家认为由Shannon定义的熵是目前度量信息不确定性的一种最好的方法。另外,Pawlak定义了两个函数来刻画Rough集X的不精确性: ,oR’挚;otR’争· 基于信息理论中的熵,Duntsch和Gediga定义了Rough集中的熵和条件熵。Beaubouef定义了Rough集、Rough模式及Rough关系数据库的Rough关系的熵。在本文的第二章中,我们讨论了Pawlak定义的Rough 集的粗摘尸。00 与 Duntsch和 Gediga建立的条件嫡的联系,并得出了 几个重要的结果;详细讨论了嫡的最大值和最小值;根据 ROUgh集理论中 ,。。_————一,。_、,。__,——.._、_.l_Q_.l、。_1,、,_、,,_ 的迫切需要,我们讨论了 H—(d Q)和]Y;“一 Y;之间的关系,并得 1“----QI 出了一个非常有趣、有理论价值和实践价值的一个新结果(该结果己投《计 算机学报》);另外,我们从数学的角度对*OUgh集中的嫡(包括粗摘和条 件嫡)进行了精确的分析,说明了嫡是度量ROOgh集中不确定性的一种非 常实用的数学工具。在此基础上,我们指出了对度量 RO[Jgh集或 ROUgh关 系数据库中ROOgh关系的不确定性的方法和工具有望进一步改善和提高, 有关这方面的工作,有待于进一步研究和探索。 对于一个信息系统,摘是一个非常重要的有效的不确定性信息的数学 描述工具。信息的不确定性包括不可分辨性(indiscemibility)、模糊性 (ambiguity)和不精确性(impercision)。Rough集理论利用数据内部固有 的特征刻画了数据间不可分辨性的特点,它和模糊集中的模糊性存在着本 质的不同。许多专家认为模糊集和 ROUgh集之间是互为补充的关系。 在 ROOgh关系数据库模型中,对于每一个属性j都有一个等价关系, 并且在一些属性上的取值可以是多值的,而在传统数据库模型中属性的取 值只能是单一的,这是ROOgh关系数据库与传统数据库之间的本质区别。 Beaubouef建立了Rough关系数据库模型,定义了和传统数据库类似的关 系代数和关系操作(称为ROUgh关系代数和ROUgh关系操作),并给出了 ROUgh关系的粗嫡的定义。在本文的第三章中,我们给出了ROllgh关系数 据库中粗关系的粗摘的定义,并讨论了*。*吵关系中粗嫡的一些基本性质: 利用嫡的最大最小原则,我们讨论了RO[Jgh关系中粗嫡的最大值和最小值 问题;具体分析了两个ROUgh关系R和Q可比较要具备的一些条件;讨论 了h吧卜关系操作和粗嫡之间的一些可能的联系:并且证明了E旧)不 随ROO吵关系元组的增加而递增,也证明了E(**Q),E旧)和E(Q) 之间没有普遍意义上的联系(该结果己投《中国科学》)c有关RO[Jgh关系 操作和粗嫡之间更深层次的联系(如:ROUgh 自然连接操作与粗嫡之间的 联系)有待进一步的研究和探索。 总之,有关 ROIJgh集和 ROOgh关系数据库中摘的研究问题是目前 ROOgh 集研究中一个非常重要的课题,它具有重