面向代价敏感分类问题的主动学习研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:chinaoristand
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
主动学习是机器学习领域中一个重要的研究分支。主动学习研究的是如何通过有选择性的获取那些最有信息量的样本的标签,使得我们可以用尽可能少的训练数据训练出高质量的模型,从而降低样本标签的获取成本。目前,主动学习的研究主要面向平衡数据的分类问题。然而在很多实际问题中,数据的类别分布是不平衡的,并且我们需要考虑到不同的分类错误所造成的不同代价。这种问题称为代价敏感分类问题。主动学习和代价敏感分类在实际生产生活中都有广泛的应用。然而,面向代价敏感分类问题的主动学习方法目前却没有得到深入的研究。本文研究的即是面向代价敏感分类问题的主动学习方法。针对这一课题,我们首先基于泛化误差的优化提出了一个新的主动学习算法框架。该算法框架能够适用于代价敏感分类问题以及不同的基分类器。然后,我们分别面向逻辑回归模型和朴素贝叶斯模型,对该算法框架进行了完整的实现。我们解决了算法框架的实现中需要解决的关键问题,即如何对扩大训练集上的新模型进行估计。我们针对逻辑回归模型和朴素贝叶斯模型分别推导出了相应的模型估计方法,从而提出了面向这两个模型的适用于代价敏感分类问题的主动学习算法。我们在多个实际数据集上对提出的算法进行了充分的实验验证和分析,并与现有算法进行了对比。大量的实验结果表明,我们提出的主动学习算法能够有效的选择出最有信息量的样本来提升代价敏感分类模型的性能,并且相比于现有算法具有更优越的表现。
其他文献
第一部分 超声引导下聚桂醇硬化治疗子宫肌瘤的安全性评价目的:研究超声引导下聚桂醇硬化治疗不同类型、不同位置、不同大小子宫肌瘤的安全性。方法:2014年1月至2017年6月,在
随着人工智能的热潮席卷全球,机器人的发展受到广泛关注。室内移动机器人作为机器人研究领域的重要分支,吸引了诸多学者的注目,其中地图构建与路径规划是室内移动机器人导航研究的热点和难点。目前,已知环境下的机器人导航技术已相对成熟,但未知环境下的机器人导航还有些关键问题亟待进一步研究。本文首先研究了机器人在室内环境下的定位问题,采用基于信标的UWB定位技术为机器人提供较为准确的位姿估计;然后研究环境地图未
学位
频谱感知技术是认知无线电技术(Cognitive Radio,CR)的关键,用于探测授权频谱中的可用信道。主用户(Primary User,PU)活动状态的高效检测对于有限的频谱资源利用具有重要意义。协作频谱感知(Cooperative Spectrum Sensing,CSS)可以有效地解决单节点感知不可靠的问题,但另一方面也会增加网络能耗。与此同时,当次级用户(Secondary User,S
近年来,智能机器人配备RGB-D相机作为其视觉感知系统已经成为一种新的趋势。物体识别作为其视觉系统的重要功能之一,长期以来一直是研究人员关注的难点。其主要原因在于实际环境(如桌面、货架物体堆放等)中的众多不确定性:其中单一视角下,由于堆放造成的物体间相互遮挡、表面信息丢失等问题直接影响了识别和位姿计算的正确率和精确度。针对这一局限性,前人利用机器人的可移动能力提出了主动物体识别的概念,即通过增加视
移动互联网技术的飞速发展,社交网络平台日益流行,新浪微博作为我国目前最流行的社交网络平台之一,其信息的时效性与爆发式的传播速度,吸引了大批我国的网民,包含巨大的商业价值。传统广告推荐模式的效果低下且易被人厌烦,随着基于用户兴趣的广告精准投放模式愈发被重视,新浪微博中巨大的用户数量与用户兴趣也愈发具有研究价值,而如何精确的描述与预测用户的兴趣,有着重要的研究意义。当前多数的研究是单一的从用户微博信息
随着用户信息获取要求的提高,传统的搜索引擎已经越来越难以满足用户的需求。虽然搜索引擎可以返回给用户相关知识,但用户仍需要二次提取。为此研究人员提出了智能问答系统,
习近平同志指出,当代中国正经历着我国历史上最为广泛而深刻的社会变革。处在急速更新发展中的中国博物馆、纪念馆,务必完成由"等客上门"、"守株待兔"向"上门等客"的转变,继
学位
近几十年来,云环境中的数据共享已成为一个热门话题。随着云计算的普及,如何在云环境中实现安全高效的数据共享是一个亟待解决的问题。此外,如何实现匿名性和可追踪性也是云计算中数据共享的一个挑战。迄今为止,已经有很多专家学者致力于研究专门针对云数据共享的方案。然而现有云数据共享方案大都面临效率较低、隐私难以保护等问题。本文提出一种能够同时支持匿名性和可追踪性的数据共享方案。首先,在多方数据共享环境下,为了