【摘 要】
:
在传统的机器学习中,学习任务是在给定充分训练数据的基础上来学习一个分类模型,然而一些新出现的领域很难获得充分的训练样本。其次,传统的机器学习假设训练数据与测试数据
论文部分内容阅读
在传统的机器学习中,学习任务是在给定充分训练数据的基础上来学习一个分类模型,然而一些新出现的领域很难获得充分的训练样本。其次,传统的机器学习假设训练数据与测试数据服从相同的数据分布,但对于实际应用这是一个苛刻的条件。一个常见的情况就是训练数据过期。如果重新标注训练样本将花费高昂的代价。其次,完全丢弃现成的、即使是在不完全相同分布下的训练数据,也是非常浪费的。迁移学习就是利用相关领域中的可迁移性知识来帮助完成目标领域中的学习任务,达到降低目标领域对标签数据的需求以及提高目标领域学习效率的目的。基于样本实例的迁移学习方法,是通过在相关源领域中寻找样本子集并进行迁移来完成目标领域的学习任务。然而,现有的实例迁移学习算法在样本权重、目标领域未标注样本和每次迭代得到的基分类器的利用方面还存在不足。本文针对这些不足进行如下三个方面的工作。第一,针对单源数据,本文对TrAdaBoost算法进行改进。该方法使用迭代所得的基分类器在源领域和目标领域上的误差对样本权重进行更新。实验分析证明算法的有效性。第二,针对多源数据,提出了一种基于特征距离的多源迁移学习算法。本文首先定义样本到领域的特征距离,并基于源领域与目标领域的之间协方差计算特征距离。根据特征距离,算法对源领域样本进行筛选并赋予相应权重。其次,我们用动态因子改进迭代过程。在该算法中,目标领域中的非标签样本以及基分类得到更充分利用,并且源领域样本中的权重下降过快的问题也得到进一步改进。在Letter-recognition数据集和20newsgroup数据集上,本文分别从源领域筛选样本大小、源领域个数和目标领域带标记样本数量三个方面对算法分类正确率、时间效率和整体性能的影响几个方面进行了详细的实验分析。实验分析验证算法和现有方法相比有一定的优越性。第三,本文将基于特征距离的多源迁移学习算法应用到跨领域情感分类研究中,实验证明本文算法的可行性。
其他文献
目的阐述中医经方治疗高脂血症的临床体会。方法首先阐述中西医应对高脂血症的不同观点及治疗思路,然后再通过近两年的几则临床案例来体现中医经方在治疗这一疾病的优势所在
归纳了叶酸与妊娠期高血压综合征的相关性,指出了叶酸对妊娠期高血压综合征的作用机理、诊断价值和预防作用,讨论了服用叶酸的意义、剂量和使用时期,在此基础上,对高危妇女在
近年来,随着各项促进休闲农业和乡村旅游发展政策的颁布,我国各地都正积极推动休闲农业和乡村旅游的发展,乡村旅游逐渐成为城镇居民休闲出行的首要选择。这一旅游现象也迅速激发了国内乡村旅游目的地数量的增加。乡村旅游产品的质量是影响旅游地竞争力的重要因素,乡村旅游产品的质量即由产品的各维度属性质量构成,而现有文献对乡村旅游产品的维度构成及其感知质量研究不够全面,不利于对乡村旅游产品有更深入的认识。本文以构建
当前我国经济正处于增速换档、结构调整、动能转换的转型阶段,为了能够应对经济转型的机遇与挑战,在日益激烈的市场竞争中保持领先地位,部分企业就会选择制定偏离行业平均水平的战略,即形成战略差异度。近些年来资本市场上频繁发生的财务违规事件将盈余管理推上研究的热潮,盈余管理一直以来被学术界和实务界所关注。战略差异度会导致企业的经营风险和信息风险加剧,从而为企业管理层进行盈余管理提供了机会和操纵空间。基于此,
目的通过观察过量氟、硼以及氟硼联合作用对大鼠切牙釉蛋白表达的影响,初步探讨硼在预防氟斑牙中的作用。方法选择32只Wistar大鼠,随机分为4组。Ⅰ组常规饮用蒸馏水;Ⅱ组饮用
目的体外研究粪肠球菌对多形核白细胞(PMNs)释放基质金属蛋白酶-8(MMP-8)及凋亡的影响。方法提取PMNs,以加入粪肠球菌悬浮液的PMNs作为实验组;加入乙酸肉豆蔻佛波醇的PMNs为阳性对
为创制具有较高生物活性的绿色农药,以姜黄素为先导,采用活性基团拼接原理,设计合成了一系列未见报道的1,4-戊二烯-3-酮肟酯类化合物,其结构红外光谱(IR)、核磁共振氢谱(1H NMR)
本文从工业设计的开办目的入手,论述了高职教育办工业设计的优势、高职教育中知识板块设置、高职教育中的师资队伍和教学模式建设,对高职的工业设计成长进行了初步探索。