面向不确定性数据的若干分类算法研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:rui_lucky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据的不确定性广泛存在于互联网、通信、经济、信息安全等领域中。在数据挖掘领域,传统的挖掘方法主要是针对精确数据提出的,其挖掘模型未考虑数据的不确定性信息,从而不能直接用于处理不确定性数据。数据的不确定性是待挖掘对象不可忽视的客观属性,对挖掘结果的质量有着重要的影响。针对不确定性数据的挖掘方法也因此成为学术界前沿研究领域之一。针对区间不确定性数据分类问题,由于每种分类方法在不同问题上都有各自的优缺点,为此本文针对支持向量机、朴素贝叶斯和决策树三种分类方法,从数据模型的建立、分类模型的改进设计等几个方面进行了研究,主要工作和成果如下:(1)提出了基于支持向量机的区间不确定性数据分类方法针对区间不确定性数据,构建了不确定性数据的超椭球凸集模型,将该数据模型引入到标准的SVM和HSVM分类模型中,分别提出了不确定性支持向量机(IUSVM)和不确定性超球支持向量机(IUHSVM)两种分类方法。然后,通过上下两层子规划交替迭代寻优的方式对IUSVM和IUHSVM的不确定约束规划问题进行求解,并进一步通过推导得到下层子规划最优解的数学公式,有效提高计算效率。最后,从算法有效性、分类精度、运行时间等三个方面进行仿真对比实验。实验结果表明:IUSVM和IUHSVM算法能有效描述数据的不确定性信息,且又保持SVM较好的鲁棒性。(2)提出了基于朴素贝叶斯的区间不确定性数据分类方法针对区间不确定性数据,构建了基于随机理论的不确定性数据模型,分别提出了基于直方图估计的不确定性朴素贝叶斯分类方法(IU-HNBC)和基于改进Parzen窗估计的不确定性朴素贝叶斯分类方法(IU-PNBC)。IU-HNBC算法采用直方图估计区间不确定性数据的类条件概率密度函数,将区间数据划分到不同的直方图区间,并给出落入各区间的概率及计算公式。最后,从直方图区间个数选择、算法分类精度、运行时间等三个方面进行仿真对比实验。实验结果表明:同现有不确定性朴素贝叶斯方法相比,IU-HNBC算法计算复杂度低,时间效率高,具有更好的分类精度和分类稳定性。IU-PNBC算法基于期望思想,采用Parzen估计法推导出不确定性数据类条件概率密度函数的数学计算公式,并通过其代数插值函数预测未知类别样本的后验概率,从而将Parzen窗估计转化为非惰性方法,降低了计算复杂度。最后,从插值点个数选择、算法分类精度、运行时间等方面进行仿真对比试验。实验结果表明:随着插值点增多,IUPNBC算法分类精度也提高,插值点数高于15时,分类结果趋于稳定。IU-PNBC算法拥有较优的分类精度、较小的时间代价和空间需求。(3)提出了基于决策树的区间不确定性数据分类方法针对区间不确定性数据,考虑决策树对连续属性存在信息表达能力弱的不足,提出一种基于模糊决策树的区间不确定性数据分类方法(IU-FDT)。首先,基于随机理论,假设不确定性数据满足均匀分布,并定义了区间不确定性数据之间的距离度量函数,对区间样本的各维属性分别进行模糊聚类,从而将区间不确定性转换为以隶属度形式表示的模糊不确定性,并采用FDT方法对转化后的样本进行分类。最后,从算法分类精度、运行时间等方面进行了对比实验。实验结果表明:IU-FDT方法能有效克服不确定性信息的干扰,同不确定性数据的支持向量机方法相比,IU-FDT方法具有更高的时间效率;同不确定性数据的朴素贝叶斯方法相比,IU-FDT方法的分类精度具有更好的稳定性。
其他文献
近年来,随着网络技术的迅速发展和J2EE平台的广泛采用,基于B/S的多层Web体系结构逐渐发展成熟起来。MVC设计模式分离了数据的控制和数据的表现,在实现多层Web应用系统中具有明显
计算机和互联网技术的快速发展和推广,给人们的生活带来了极大的便利,但是随之而来的负面影响也是人们所始料不及的,以计算机系统为对象或工具、通过网络进行的新型犯罪活动——
近年来,随着移动通信技术的迅猛发展,移动通信已经走进3G时代。基于位置的服务LBS是随着移动通信技术的进步而发展起来的增值业务,无线定位技术对于3G网络的重要性已得到广泛认
组合拍卖是解决各种资源分配问题的有效机制,随着电子商务的发展,组合拍卖机制发展成为一种新的多方交互与决策的电子谈判模式,是当前电子商务的一个重要应用领域。组合拍卖问题
相变是指材料在一定温度和压力等条件下发生的物相的转变。相变前后,材料的微观结构发生变化,从而引起宏观性质的显著改变。对相变现象的研究具有理论意义和工程价值。在核工业中,锆因其高熔点、高硬度、低热中子吸收截面等优良的材料特性得到了广泛应用。常温下,锆晶体处于密排六方结构。升温时发生固态相变,转变为体心立方结构。继续升温则会熔化。本文使用分子动力学方法,对温度引起的单晶锆的固态相变和熔化这两类典型相变
由于XML数据具有不同于传统数据形式的特点,使得传统的数据库技术不能有效地发挥作用,因此需要针对其特点研究新的处理方法。作为XML数据处理中最重要问题之一的查询操作已经
随着互联网的发展,社交网络也逐渐成为人们交流和获取信息的重要渠道。其中,国外最具有代表性的社交网络是Facebook和Twitter,而国内最具代表性的则是新浪微博和腾讯微博等。
电信系统的网管软件在国外早已有一些著名的公司进行了研发,并达到了比较大的规模;国内的网管软件的研发虽然起步相对较晚,但比较切实国内网管软件市场的需求,从而得到了快速的发
随着用户对通信业务需求的不断提高,下一代移动通信系统的数据速率将会大大提高,人们已经把目光越来越多地投向第四代(4G)移动通信系统中。实践证明,CDMA与正交频分复用(OFDM)技
信息检索中基于相关反馈的查询扩展语言模型因其能够有效地提高查询效率而得到广泛应用。传统上,有些检索模型都做了独立性假设,即索引词之间是独立的,从而对文档和查询进行