跨领域分类学习方法及应用研究

被引量 : 4次 | 上传用户:zoujianjun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息革命的来临,信息技术高速发展,机器学习作为一种知识学习手段被越来越多的应用在社会各个领域。如何从海量纷杂的信息中提取有效信息在数据挖掘、数据校正、数据预测等领域上有着重要的意义。但随着研究与应用的深入,传统的机器学习出现了各种局限性,影响到了系统识别率和识别速度,其中比较重要的一条即传统机器学习在面对跨领域和多领域学习时自适应性较差,这是因为传统的机器学习方法大都假设训练数据与测试数据分布相同,而现实世界这种假设往往是不成立的。由此带来了一系列问题如:训练数据和模型易过期、分类器的偏向性、分类器的抗噪性差、分类模型泛化能力差、标记样本成本高等问题,而这些问题的存在降低了机器学习的分类精度及效率。跨领域学习不严格要求训练数据和测试数据满足相同分布,跨领域学习在不同数据分布条件下进行知识传递和学习,利用任务之间的联系和过去的学习经验加速对于新任务的学习,最大程度的减小了不同领域数据分布差异带来的影响。目前跨领域学习受到了很多关注,也取得了一系列成果。但对当前跨领域学习成果仔细观察和研究后发现跨领域学习还存在许多急待解决和完善的问题这其中包括:如何解决因源领域与目标领域的数据分布差异性而带来的识别率降低,如何提高跨领域学习的自适应性,如何解决数据的干扰和数据的隐私保护,如何在多源数据和多任务数据结构下完成跨领域学习,如何解决域间分布的不平衡性,如何完成大样本多领域的快速学习等问题。针对以上问题本课题进行了如下相关研究:1、从提高跨领域学习的自适应性出发,提出了一种“基于最小包含球的领域自适应算法”(MEB-DA),以及对应的大样本快速算法“基于中心约束型最小包含球的领域自适应算法”(CCMEB-DA)。该算法将不同领域的球心位置、球半径信息作为约束条件,在此条件下求出目标域的最小包含球球心并与源域球心位置比较以判定不同领域之间的相似度。通过计算各数据组的最小包含球球心可对不同领域数据进行整体校正、入侵检测和相似度识别,算法有着较好的运行效率和自适应性。对不同领域的样本组能够进行整体快速识别。作为验证我们将其应用在了WIFI数据的室内定位与人脸识别检测上,并取得了较好的效果。2、从最大化减小领域数据分布差异性出发提出了一种“基于概率估计的最小包含球领域迁移算法”(MEBTL),和满足大样本运算的“中心约束迁移算法”(CCMEBTL)。新算法在求解目标域球心位置时,尽可能多的利用到源域数据完成知识传递,通过计算出源领域、目标领域相对于最小包含球球心的概率估计比,并以该概率估计比作为不同领域分布距离的度量值来衡量源领域与目标领域数据分布间的差异度,判断出源领域与目标领域数据分布的差异度,从而发现不同领域之间的内部联系,在不同领域之间完成大样本的迁移学习。3、从大样本数据、抗干扰性和数据的隐私保护出发将SVM理论、CCMEB理论(改进了CVM的最小包含球算法)与概率密度差理论相结合提出了一种全新的基于数据分类的领域自适应算法(CCMEB-SVMDA)。支持向量机(SVM)主要思想是针对两类分类问题,在高维空间寻找一个最优分类超平面,以保证最小的分类错误率。CCMEB理论是一种改进了CVM的最小包含球算法,在大样本数据集处理上有着较快的速度。CCMEB-SVMDA算法将满足不同数据分布的近似领域进行整体比较,通过计算领域间的相似度快速判断领域数据的分类属性。该算法有较强的抗扰动性,通过提高源领域与目标领域的相似度能消除有害样本对分类器的误导提高分类精度。4、为了克服传统单源域跨领域分类算法所存在的指导偏向性,从多源域出发结合“逻辑回归模型”与“一致性方法”提出了一种“多源跨领域分类算法”(MSCC),该算法通过构建多个源域分类器综合指导目标域的数据分类。在MSCC的基础上结合最新的对偶坐标下降法CDdual,提出了一种大样本快速算法MSCC-CDdual,该算法对于大样本数据集有着较高的分类精度、快速的运行速度和较高的领域自适应性。5、为了克服跨领域分类学习中的域间不平衡性,从多任务学习角度出发提出了一种“多任务域分类算法”(MTC-LR),算法依据“LR模型”与“后验概率最大法则”构建多任务训练域分类器并综合指导各个任务域的数据分类,以此解决源领域数据的分布不平衡性以及稀有任务域过学习和欠学习等相关问题。为了充分高效利用大样本的任务域数据,满足大样本的快速运算,在结合CDdual算法的基础上,提出了MTC-LR的快速算法(MTC-LR-CDdual)。该算法有着较高的识别率、快速的识别速度、抗干扰性和抗不平衡性和鲁棒性。
其他文献
保健品行业作为国内新兴产业,高额的利润空间吸引了众多企业的进入。然而纵观国内保健品行业的发展是跌宕起伏的。由于缺乏监管,保健品行业目前的发展是乱象丛生的。近年来国
对台湾医疗质量监管和医院评鉴情况进行分析,获得了"第三方"医疗质量监管体系的经验和启示:以"医院评鉴"为核心进行医疗质量监管;积极推行不良事件报告制度;建立科学的医疗质
信息作为需要在信息时代人类发展和生存所要具备的基本条件,新世纪已然是信息化、网络化、通讯化、知识化程度不断深化的时期。信息作为信息时代中最具活跃、起着决定性作用
置业顾问是地产公司实现市场价值的最直接的人员。房地产行业在经历了“黄金十年”的高速发展之后,行业竞争变得更为激烈。在这种背景下,房地产公司需要更加重视对优秀置业顾
目的尝试参考HL7 RIM方法规范化表达医疗质量指标的基础数据。方法以实验室检查为例,参照美国质量论坛提出的医疗质量数据模型(QDM),采用实体—属性—值的路线,用UML工具建立
目的探讨对碳青霉烯类抗菌药物敏感性降低的肠杆菌科细菌携带碳青霉烯酶基因的类型。方法收集2016年2月至2017年2月武汉大学人民医院分离自临床的87株对碳青霉烯类抗菌药物敏
目的探讨胃肠道间质瘤(GIST)的临床表现及影像学检查的诊断价值。方法对56例经病理证实的GIST的临床及影像资料进行回顾性分析。结果56例GIST患者中发生于胃27例,小肠11例,其
生物医用高分子由于具有高载药量以及药物的可控释放而受到广泛的关注。生物医药高分子要求其具有无毒性和优良的生物相容性,且具有一定的刺激响应性,从而实现可控释放。因而,本
随着经济全球化和贸易自由化的发展,国际间水产品贸易频繁,各种食品安全问题不断出现,发达国家为保护本国消费者健康、保护本国市场实行了较为严格的水产品安全标准,对我国的水产
目的:探讨在体外受精-胚胎移植(IVF—ET)过程中引起患者流产的因素。方法:选择2005年1月-2009年12月行IVF—ET且成功临床妊娠的患者1195例,其中流产患者203例,包括早期流产患者150