半监督学习中协同训练与多视图方法的比较及改进

来源 :中国海洋大学 | 被引量 : 0次 | 上传用户：yuesiyi

【摘要】

：

近几年来,随着数据分析和数据挖掘等领域的实际问题广泛提出,半监督学习在理论和实际应用研究中获得了长足的发展,半监督学习研究主要关注当训练数据的部分信息缺失的情况下,

【作者】

：

卢加磊

【机构】

：

中国海洋大学

【出处】

：

中国海洋大学

【发表日期】

：

2010年期

【关键词】

：

半监督学习多视图EM 协同训练贝叶斯分类器烟草数据分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近几年来,随着数据分析和数据挖掘等领域的实际问题广泛提出,半监督学习在理论和实际应用研究中获得了长足的发展,半监督学习研究主要关注当训练数据的部分信息缺失的情况下,如何获得具有良好性能和推广能力的学习机器。协同训练和多视图方法是半监督学习理论的基本方法,在实际问题解决方案中这两种方法被越来越广泛的采用,并取得了较好的结果。本文首先从半监督学习的理论体系入手,概述半监督学习理论产生渊源及发展过程,主要介绍了人工智能与机器学习的发展,半监督学习在数据挖掘体系中的作用,半监督学习的研究现状与进展以及简要介绍了半监督学习主要算法框架。对贝叶斯理论、期望最大化算法、有限混合模型三个方面进行了剖析,这些理论算法是本文研究的基础。其次介绍了协同训练方法的注意点及应用背景。指出属性集合的聚类假设和分割集合的PAC设置是该方法的限制之一,并阐述了协同训练方法在自然语言处理和基于内容的图像检索这两个研究热点的应用问题。然后,本文对半监督框架下传统多视图EM算法的实现及算法中使用的公式推理细节进行说明；主要针对贝叶斯分类器和基于高斯混合模型的多视图EM算法进行分析,并对上述算法进行设计上的高进,以提高该算法在多视图框架下获取合适参数的能力,特别指出的是,改进后的算法设计在后续的实验中取得较好的分类结果；多视图EM算法的具体实现的注意点以及如何协调不同视图的权重参数等内容进行阐述。最后,本文采用烟草数据进行验证实验,实验结果表明该协同训练方法与传统算法相比在分类准确率方面有了一定的提高。两种半监督学习方法的对比实验中,多视图方法在这批数据上有较好的学习能力。这些实验结果,为烟草企业在产品配方设计中的数据分类提供了数据支持,并且在企业的产品设计中可以得到推广应用,以提高烟草企业在数据分类处理中的实际应用能力。

其他文献

基于李代数高斯表示的动作识别方法研究

过去十年中，视频中的动作识别一直是计算机视觉领域非常热门的研究课题。目前，最成功的动作识别方法大多为基于局部特征的方法，这些方法有类似的思想，也就是将视频表示为局部特征

学位

动作识别李代数高斯表示高斯混合模型时空兴趣点视觉单词直方图

基于J2EE架构网上银行系统的设计与实现

本文以真实的网上银行系统项目为研究背景，根据网上银行系统总体开发目标、特点及系统项目建设要求，对网上银行系统的总体架构进行了设计与实现，包括J2EE软件体系架构、网络拓扑

学位

网上银行系统J2EE架构业务模型网络拓扑功能设计

潍坊市虚拟无线电监测系统的设计与实现

本文针对当前地市级VHF/UHF频段无线电监测网络所存在的不足,根据信息产业部无线电管理局关于省级VHF/UHF无线电监测网的指导意见,通过对VHF/UHF频段的无线电波传播特性以及V

学位

虚拟无线电监测VHFUHF

支持向量机在认知诊断中的应用研究

随着社会的发展,人们不满足于只对个体宏观层次的评价,而是希望能从被试的实际作答反应中获得更多有关被试认知结构的信息,以便对被试做出更具体更客观的评价,并且给出相应的

学位

支持向量机(SVM)认知诊断分类属性认定

基于V2V的交通拥堵检测及结果分发方法研究

道路交通拥堵问题日益严峻,对经济、环境、交通安全、交通效率等造成诸多不良影响。虽然基于地磁线圈、视频等技术的传统智能交通应用在检测、缓解交通拥堵方面起到了重要作

学位

交通拥堵拥堵检测车联网车车通信交叉口数据分发

基于语义文法的实体空间关系知识的获取方法研究

地理信息与知识是组成客观知识世界的重要内容。互联网上大量的地理信息都以非结构化的文本形式存在,如何利用智能化的方法,从网页上不计其数的文本中获取知识,是当前知识获

学位

空间关系地理本体语义文法知识抽取

海量存储系统中元数据管理机制的研究

海量存储系统中需要保存Terabyte、Petabyte级别甚至更大规模的数据。数据的元数据如文件的名字、属性、保存地址和访问授权等信息一般由元数据服务器进行管理。在访问海量存

学位

海量存储系统元数据管理数据库管理技术数据生命周期索引算法

兼语句的知识分析与获取方法研究

兼语句是兼语短语充当谓语的一种汉语句式,兼语句中的的谓语是由一个动宾短语套接一个主谓短语组成,其中动宾短语中的宾语兼做主谓短语的主语,它是文本知识中较为常见又比较

学位

兼语句语义分类兼语文法兼语谓词文法组合模式

基于MANET的协作缓存概率一致性模型及维护机制

当前日益普及的无线网络和移动设备的发展为用户随时随地连入Internet提供了良好的基础。移动自组网(Mobile Ad hoc Network，MANET)是在没有任何网络基础设施支持下形成的动态

学位

MANET协作缓存概率一致性模型维护机制移动自组网UnicastPush算法

本体知识库的完全化过程研究

摘要近几年来,本体作为知识库表示知识的主要技术已经成为研究热点。本体知识库不仅克服了传统知识库的不足和缺陷,还将本体的特点应用在表示知识的层面上,有效提高了知识库

学位

本体知识库描述逻辑完全化过程推理

半监督学习中协同训练与多视图方法的比较及改进

与本文相关的学术论文