半监督学习中协同训练与多视图方法的比较及改进

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户:yuesiyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,随着数据分析和数据挖掘等领域的实际问题广泛提出,半监督学习在理论和实际应用研究中获得了长足的发展,半监督学习研究主要关注当训练数据的部分信息缺失的情况下,如何获得具有良好性能和推广能力的学习机器。协同训练和多视图方法是半监督学习理论的基本方法,在实际问题解决方案中这两种方法被越来越广泛的采用,并取得了较好的结果。本文首先从半监督学习的理论体系入手,概述半监督学习理论产生渊源及发展过程,主要介绍了人工智能与机器学习的发展,半监督学习在数据挖掘体系中的作用,半监督学习的研究现状与进展以及简要介绍了半监督学习主要算法框架。对贝叶斯理论、期望最大化算法、有限混合模型三个方面进行了剖析,这些理论算法是本文研究的基础。其次介绍了协同训练方法的注意点及应用背景。指出属性集合的聚类假设和分割集合的PAC设置是该方法的限制之一,并阐述了协同训练方法在自然语言处理和基于内容的图像检索这两个研究热点的应用问题。然后,本文对半监督框架下传统多视图EM算法的实现及算法中使用的公式推理细节进行说明;主要针对贝叶斯分类器和基于高斯混合模型的多视图EM算法进行分析,并对上述算法进行设计上的高进,以提高该算法在多视图框架下获取合适参数的能力,特别指出的是,改进后的算法设计在后续的实验中取得较好的分类结果;多视图EM算法的具体实现的注意点以及如何协调不同视图的权重参数等内容进行阐述。最后,本文采用烟草数据进行验证实验,实验结果表明该协同训练方法与传统算法相比在分类准确率方面有了一定的提高。两种半监督学习方法的对比实验中,多视图方法在这批数据上有较好的学习能力。这些实验结果,为烟草企业在产品配方设计中的数据分类提供了数据支持,并且在企业的产品设计中可以得到推广应用,以提高烟草企业在数据分类处理中的实际应用能力。
其他文献
过去十年中,视频中的动作识别一直是计算机视觉领域非常热门的研究课题。目前,最成功的动作识别方法大多为基于局部特征的方法,这些方法有类似的思想,也就是将视频表示为局部特征
本文以真实的网上银行系统项目为研究背景,根据网上银行系统总体开发目标、特点及系统项目建设要求,对网上银行系统的总体架构进行了设计与实现,包括J2EE软件体系架构、网络拓扑
本文针对当前地市级VHF/UHF频段无线电监测网络所存在的不足,根据信息产业部无线电管理局关于省级VHF/UHF无线电监测网的指导意见,通过对VHF/UHF频段的无线电波传播特性以及V
随着社会的发展,人们不满足于只对个体宏观层次的评价,而是希望能从被试的实际作答反应中获得更多有关被试认知结构的信息,以便对被试做出更具体更客观的评价,并且给出相应的
道路交通拥堵问题日益严峻,对经济、环境、交通安全、交通效率等造成诸多不良影响。虽然基于地磁线圈、视频等技术的传统智能交通应用在检测、缓解交通拥堵方面起到了重要作
地理信息与知识是组成客观知识世界的重要内容。互联网上大量的地理信息都以非结构化的文本形式存在,如何利用智能化的方法,从网页上不计其数的文本中获取知识,是当前知识获
海量存储系统中需要保存Terabyte、Petabyte级别甚至更大规模的数据。数据的元数据如文件的名字、属性、保存地址和访问授权等信息一般由元数据服务器进行管理。在访问海量存
兼语句是兼语短语充当谓语的一种汉语句式,兼语句中的的谓语是由一个动宾短语套接一个主谓短语组成,其中动宾短语中的宾语兼做主谓短语的主语,它是文本知识中较为常见又比较
当前日益普及的无线网络和移动设备的发展为用户随时随地连入Internet提供了良好的基础。移动自组网(Mobile Ad hoc Network,MANET)是在没有任何网络基础设施支持下形成的动态
摘要近几年来,本体作为知识库表示知识的主要技术已经成为研究热点。本体知识库不仅克服了传统知识库的不足和缺陷,还将本体的特点应用在表示知识的层面上,有效提高了知识库