【摘 要】
:
在人工智能和互联网技术高速发展的时代,面对海量且结构复杂的数据,如何对其进行快速高效地处理成为一项非常重要的研究。在实际应用中,训练集与测试集的分布通常不同,训练集的数据量也会存在不足。为了解决这两个问题,迁移学习应运而生。对于数据分布不同,但分布又具有一定相似性的两个领域,迁移学习可以通过使用少量的数据辅助目标领域数据进行训练,从而能将数据有效地进行分类。本文针对基于实例的迁移学习方法,从单源和
【基金项目】
:
国家自然科学基金项目(11871181); 黑龙江省自然科学基金项目(A2018008);
论文部分内容阅读
在人工智能和互联网技术高速发展的时代,面对海量且结构复杂的数据,如何对其进行快速高效地处理成为一项非常重要的研究。在实际应用中,训练集与测试集的分布通常不同,训练集的数据量也会存在不足。为了解决这两个问题,迁移学习应运而生。对于数据分布不同,但分布又具有一定相似性的两个领域,迁移学习可以通过使用少量的数据辅助目标领域数据进行训练,从而能将数据有效地进行分类。本文针对基于实例的迁移学习方法,从单源和多源两个角度对算法进行改进,具体内容如下:针对源领域数据集中包含冗余数据和基本分类器评价指标存在局限性的问题,本文在单源的实例迁移学习TrAdaBoost算法(Transfer Ada Boost)的基础上,提出了一种基于聚类理论和样本误差的TrAdaBoost算法。首先利用聚类算法对源领域数据集进行筛选,找到与目标领域相似性较低的源领域数据并将其去除,其次采用样本重加权的技术使样本可重新被目标领域使用,最后引入样本自身的分类误差优化基础分类器的评价指标。使用改进算法对SRAA数据集和20Newsgroups数据集分类,实验结果表明,改进算法的分类性能更好,其准确率和F1分数相较于对比算法均有所提高。改进算法减少了源领域与目标领域之间的偏差,从而避免模型发生负迁移,增强了模型的泛化能力。针对具有多个源领域的迁移学习,提出一种多源聚类样本误差TrAdaBoost算法。首先合并多个源领域和目标领域的数据,使用聚类算法进行聚类,删除未与目标领域数据处于同一聚类簇的源领域数据,其次对于每个源领域,分别与目标领域组合成训练数据集,训练得到一组弱学习器并将其集成为候选学习器,优化弱学习器和候选分类器的评价指标。实验结果表明,改进算法可有效地将多个源领域的有用知识进行迁移,其准确率和F1分数均高于对比算法。改进算法增加了源领域与目标领域之间的相关性,充分利用源领域中的知识辅助训练目标领域的模型,着重关注与目标领域具有较强相关性的源领域数据,提高了分类器对这些源领域数据的倾向程度,进而提升了分类器的准确率。
其他文献
随着网络通讯技术、数字信号处理水平和计算机硬件水平的快速发展,传感器网络也得到了迅猛发展。如今,传感器网络已经广泛应用于机器人、自动驾驶、智能电网和医疗保健等诸多领域,但也给控制领域内相关理论的研究带来了新的挑战,如通讯延迟、测量丢失、衰减测量等。本文针对几类具有通讯延迟的时变非线性系统,利用方差约束方法设计分布式一致滤波算法,并对所提出的算法进行性能分析(有界性分析、单调性分析)。接下来,我们简
20世纪,关于有限单群的分类已经完成,这次分类是代数学上的一个伟大成就,随着时间的推移接下来该对无限群进行讨论。从有限到无限,有限生成是一个中间桥梁,本文讨论二元生成群。根据已有定理:有限生成自由群上的自同构群的本原元是幂单的,因此便有推测由二元生成的自由群,如果本原元幂单则群是幂单群(可解群)。但有一反例指出由二元生成的自由群是完全群即本原元幂单但不可解。因此,我们需要对二元生成自由群的生成元的
目的 观察托法替布对难治性类风湿关节炎的临床疗效和安全性。方法 回顾性分析兰州大学第二医院风湿免疫科51例托法替布治疗难治性类风湿关节炎患者24周的疗效和安全性指标。收集托法替布治疗前和治疗4、12和24周的疾病活动性指标DAS28CRP、DAS28ESR、血沉(ESR)、C反应蛋白(CRP)、28个肿胀关节数、28个压痛关节数和VAS疼痛评分指标并分析改善情况,评估治疗前后血常规、肝肾功能等安全
随着管理职能的分工,公司所有者聘请职业经理人代表其管理企业日常经营活动,双方形成委托代理关系。但是传统薪酬制度不能完全满足职业经理人的要求,因此为调和企业所有者和经理人的利益冲突,提高企业的经营效率,企业所有者需要完善薪酬体制改革。股权激励作为企业薪酬体制的重要组成部分,可以有效缓解所有权和经营权分离产生的代理矛盾,正逐渐成为企业完善内部治理的重要手段。目前国内对股权激励的研究,多采用实证分析法,
最近几十年来,由于人工神经网络广泛应用在信息处理、组合优化、大数据分析和指纹识别等工程实践中,因此,受到越来越多的专家和学者们的关注。此外,由于神经元的状态并不是直接可以获得的,为了更好地了解神经网络的内部运行状态及相关信息,需要提出有效的方法对神经元内部状态进行估计,该方法具有重要的现实意义。本文主要针对离散不确定时滞神经网络,基于递推线性矩阵不等式技术以及矩阵理论,提出了一种新的H∞状态估计算
随着概周期型函数的相关理论被提出以来,它引起了国内外众多学者的关注并且还对其进行了研究。此后,许多不同领域的学者们又提出了概自守型函数并对其进行了深入的探究。除此之外,上述的两大类型函数在医学领域中可以用来解决医学传染病问题,也可以在天文物理学领域中用来解决天体运动等问题。而在求解时这两类型函数常常需要和各种类型积分和微分方程联合。因此,本文首先对一类无穷时滞积分方程的伪周期解进行探究。其次又对一
中国农业传统深厚,国土面积广袤,地理资源丰富,特色农产品众多。农产品区域公共品牌建设被认为是帮助农户增收、发展农业产业并带动乡村经济振兴的重要途径。本文基于产地特色要素,分析了区域公共品牌农产品的生产函数和成本函数及其所获得的溢价,以及生产者逐利形成的非诚信生产行为导致的市场交易效率下降现象。同时基于质量信息要素,分析了信息对称情况下的农产品交易市场均衡与信息不对称情况下农产品交易市场非均衡,进一
近年来,随着我国交通运输事业的飞速发展,高速公路各路段、站所逐渐暴露出应急安全管理、规范高效运营等方面的问题。湖北交投随岳高速公路运营管理有限公司以问题为导向,创新引入数字化、智能化技术和理念,深入探索“智能+”数字化一体化运营管理新模式,通过打造智慧费亭新形态,开发应用“随岳通”应急指挥调度平台、机电运维系统App和智能视频分析系统,真正打通了各站所信息孤岛,实现了各路段视频主动监视、控制、在线
随着信息技术的迅速发展,为发展现代教育和培养人才的综合素质起到了重要作用。所以,在实施新课程的过程中,要充分利用信息技术来提升教学效率,把信息技术引到数学教学中,从而使学生的学习积极性得到提升,让他们主动投入到教学中去。本文从将信息技术应用在小学数学教学中的意义入手,结合信息化教学的特点及实际应用,探讨如何提高学生的学习水平。
随着系统控制理论的飞速发展,实际被控系统变得十分复杂,由测量仪器带来的系统参数难以精确获得,导致系统存在不确定性和非线性特性。近年来,非线性系统的控制问题因其在许多实际系统中的广泛应用引起学者们的关注。此外,与渐近稳定相比,有限时间稳定具有更好的跟踪性能,缺点是系统的收敛时间需要提前知道初始状态的值。然而,现实生活中很难提前获得系统的初始状态,从而不能得到稳定时间的近似值。固定时间控制方法的稳定时