论文部分内容阅读
数据挖掘技术在近些年来取得了长足的进步,但是大部分学者将注意力集中在如何获取准确的模型上,而很少对挖掘出的结果进行评价和排序。本文以数据挖掘的结果——智能知识为研究对象,针对其在表述方式与度量方法上的特点,研究了智能知识的测度体系。智能知识的测度分为客观测度和主观测度:前者是基于所发现规则与模式的统计显著性而后者则基于使用者在特定领域问题上的观念和期望。本文以智能知识的客观测度为研究重点,从数据挖掘模型的区分能力、所能提供的信息量等多个角度提出了评价智能知识价值的方法。
为了考察数据挖掘在多大程度上能将不同类别的点区分开,我们从不同的应用领域引入了重叠度、Lorenz曲线、Gini系数、以及ROC曲线等指标与方法。在度量智能知识所包含的信息量时,我们采用随机事件较原未状态所包含的不确定性的减少量,即熵的减少量来进行测度;在讨论了这些指标用作智能知识测度时的性质后,我们构造了相应的统计量,对一些指标进行了不同的统计检验。我们还给出了利用数据包络分析(DEA)对智能知识进行综合评价的方法。