论文部分内容阅读
数据的不确定性广泛存在于互联网、通信、经济、信息安全等领域中。在数据挖掘领域,传统的挖掘方法主要是针对精确数据提出的,其挖掘模型未考虑数据的不确定性信息,从而不能直接用于处理不确定性数据。数据的不确定性是待挖掘对象不可忽视的客观属性,对挖掘结果的质量有着重要的影响。针对不确定性数据的挖掘方法也因此成为学术界前沿研究领域之一。针对区间不确定性数据分类问题,由于每种分类方法在不同问题上都有各自的优缺点,为此本文针对支持向量机、朴素贝叶斯和决策树三种分类方法,从数据模型的建立、分类模型的改进设计等几个方面进行了研究,主要工作和成果如下:(1)提出了基于支持向量机的区间不确定性数据分类方法针对区间不确定性数据,构建了不确定性数据的超椭球凸集模型,将该数据模型引入到标准的SVM和HSVM分类模型中,分别提出了不确定性支持向量机(IUSVM)和不确定性超球支持向量机(IUHSVM)两种分类方法。然后,通过上下两层子规划交替迭代寻优的方式对IUSVM和IUHSVM的不确定约束规划问题进行求解,并进一步通过推导得到下层子规划最优解的数学公式,有效提高计算效率。最后,从算法有效性、分类精度、运行时间等三个方面进行仿真对比实验。实验结果表明:IUSVM和IUHSVM算法能有效描述数据的不确定性信息,且又保持SVM较好的鲁棒性。(2)提出了基于朴素贝叶斯的区间不确定性数据分类方法针对区间不确定性数据,构建了基于随机理论的不确定性数据模型,分别提出了基于直方图估计的不确定性朴素贝叶斯分类方法(IU-HNBC)和基于改进Parzen窗估计的不确定性朴素贝叶斯分类方法(IU-PNBC)。IU-HNBC算法采用直方图估计区间不确定性数据的类条件概率密度函数,将区间数据划分到不同的直方图区间,并给出落入各区间的概率及计算公式。最后,从直方图区间个数选择、算法分类精度、运行时间等三个方面进行仿真对比实验。实验结果表明:同现有不确定性朴素贝叶斯方法相比,IU-HNBC算法计算复杂度低,时间效率高,具有更好的分类精度和分类稳定性。IU-PNBC算法基于期望思想,采用Parzen估计法推导出不确定性数据类条件概率密度函数的数学计算公式,并通过其代数插值函数预测未知类别样本的后验概率,从而将Parzen窗估计转化为非惰性方法,降低了计算复杂度。最后,从插值点个数选择、算法分类精度、运行时间等方面进行仿真对比试验。实验结果表明:随着插值点增多,IUPNBC算法分类精度也提高,插值点数高于15时,分类结果趋于稳定。IU-PNBC算法拥有较优的分类精度、较小的时间代价和空间需求。(3)提出了基于决策树的区间不确定性数据分类方法针对区间不确定性数据,考虑决策树对连续属性存在信息表达能力弱的不足,提出一种基于模糊决策树的区间不确定性数据分类方法(IU-FDT)。首先,基于随机理论,假设不确定性数据满足均匀分布,并定义了区间不确定性数据之间的距离度量函数,对区间样本的各维属性分别进行模糊聚类,从而将区间不确定性转换为以隶属度形式表示的模糊不确定性,并采用FDT方法对转化后的样本进行分类。最后,从算法分类精度、运行时间等方面进行了对比实验。实验结果表明:IU-FDT方法能有效克服不确定性信息的干扰,同不确定性数据的支持向量机方法相比,IU-FDT方法具有更高的时间效率;同不确定性数据的朴素贝叶斯方法相比,IU-FDT方法的分类精度具有更好的稳定性。