基于PU学习和贝叶斯网的不确定数据分类研究

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:kenmaxabc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实应用中数据的不确定性广泛存在,如位置信息服务,传感器网络和医疗诊断。产生不确定数据的原因包括了测量不准确、网络延迟、过时数据、错误样本和隐私保护。完成传统的分类工作需要来自所有类别的样本,但是在很多现实生活应用中,收集所有类别的已标注样本成本非常高,有时甚至是不可能的,但是大量存在的未标注样本相对容易获得。在一些二分类问题中,一部分已标注的正例样本(我们关注的类别的样本)和大量未标注样本是可以获得的。PU学习(Positive Unlabeled Learning)是指从只包含少量已标注的正例样本和未标注类别的样本的训练集上学习,而且在现实生产生活中普遍存在,例如文本分类和金融诈骗检测。PU学习近年来获得了研究人员的广泛关注,但是大多数局限于确定数据。目前在只有正例未标注样本的场景下针对不确定数据分类算法只有UPNB(Uncertain Positive na?ve Bayes)算法(He et al.2010)。该算法利用的朴素贝叶斯算法包含了强大的条件独立假设,由于该假设在现实应用中很难成立,所以它限制了UPNB算法的分类效果。针对这样的研究现状,本文讨论在正例和未标注样本学习场景下针对含有不确定信息的数据的贝叶斯网分类问题。本文主要研究与成果:(1)研究在PU学习场景下不确定数据属性间的条件互信息的计算问题,提出不确定条件互信息(Uncertain Conditional Mutual Information,UCMI)来处理该问题。传统的TAN(Tree Augmented Na?ve Bayes)贝叶斯网分类算法中的条件互信息只能从全标注的确定数据中学习TAN树形网络结构。本研究借助概率势(Probability Cardinality,PC)的概念,针对PU学习场景改进条件互信息的计算方法提出不确定条件互信息概念来衡量不确定每对属性间的依赖关系,从而确定各属性在TAN模型中的双亲属性,即贝叶斯网结构。(2)研究利用贝叶斯网解决在正例未标注样本场景下不确定数据的分类问题,提出UPTAN贝叶斯网分类算法解决该问题,并在分类效果上超过目前该领域最先进的基于朴素贝叶斯的UPNB算法。在贝叶斯网结构学习部分,UPTAN利用不确定条件互信息计算不确定属性间的依赖关系,从而可以在PU学习场景下从不确定数据中学习得到TAN贝叶斯网络结构。在贝叶斯网分类器的参数学习部分,UPTAN通过计算概率势来代替统计频数从而扩展PU学习算法PTAN(Positive Tree Augmented Na?ve Bayes)的条件概率表(Conditional Probability Tables,CPTs)参数学习方法,使之可以处理PU学习场景和不确定数据。(3)针对UPTAN的分类效果和不确定属性对UPTAN分类效果的影响,本研究在20个UCI数据集上开展实验。实验结果证明UPTAN算法的分类性能超过目前该领域最先进的UPNB算法3.37%(以F1为性能指标)和不确定属性越具有代表性,不确定性越大,UPTAN算法分类效果下降越多。
其他文献
分税制改革以来,地方政府承担着不相匹配的财权和事权,与此同时,土地出让金收入占公共财政收入的比重从1999年的8.49%上升至2013年的60.86%,显示土地财政已经成为地方政府缓
随着体育旅游业的兴起繁荣,在相关国家和地方政策以及相关标准的推动下,旅游度假区开发体育旅游产品已成为度假业发展的大势所趋,体育旅游产品也正逐步成为旅游度假区的核心产品之一。基于此,对旅游度假区体育旅游产品进行深入研究非常有必要。目前,学术界对旅游度假区体育旅游产品的研究较少,这与旅游度假区体育旅游产品的良好发展态势不相适应。本文以国务院办公厅《关于促进全民健身和体育消费推动体育产业高质量发展的意见
学位
为了探讨冰晶核化对雷暴云闪电行为的影响,结合一次真实的雷暴云个例,通过已有的三维对流云起、放电模式探讨对比了三种冰晶核化方案,分别为原模式中的经验公式YS方案及与气
熊市遵循价值投资,而牛市忽视价值投资是对我国股市的一种普遍印象。这种不同市场行情对基金投资决策产生不同影响的市场印象由来已久,并未得到专门验证。本文从基金的投资行
三维可视媒体(图像与视频)因为其震撼的立体效果和极具冲击的感官体验正变得越来越受欢迎。面对当今各种各样的终端显示设备,当图像与视频的分辨率与显示屏不相符时,如何使之
多视点视频系统能够在解码端提供多个视角观看视频,给观看者带来真实感和沉浸感。由于传输带宽的限制,不可能采集密集视点的视频,因此需要虚拟视点绘制技术。在编码端传输少
在互联网快速发展和大数据的大背景下,大众的视觉体验效果得到了飞速的提升。3D视频会议系统、3D导航、3D医疗等先进技术给大众带来极大的便利同时,也不可避免地带来一些问题
多媒体信息技术的发展带动着三维视频、多视点视频、自由视点视频的应用。多视点彩色加深度(Mul-tiview Video plus Depth,MVD)的视频格式在实现自由视点视频的过程中被较为
当前高校贫困生工作在经济发展和制度创新的背景下不断变化发展,研究成果的理论性和系统性明显增强,但真正意义上的管理学研究成果不到10%的比例,并且还是在“教育理论和教育
互联网是随着时代发展产生的新型信息交流工具,如今已经进入了我们学习生活中的方方面面。与此同时网络上可交流的平台越来越多,在这些平台中各种各样的评论性文本也呈爆发式