迁移与集成学习在文本分类中的应用研究

被引量 : 1次 | 上传用户:hongwei3330857
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
迁移学习是解决数据跨领域问题的一种有效方式,它从过期数据中学习知识来帮助认知新任务,由于其打破了传统机器学习“独立同分布”的假设,被成功应用于很多领域。集成学习通过组建多个有差异的分类器建立预测模型,由于其突出的稳定性和泛化性,成为机器学习研究的热点之一。本文以新闻文本分类为背景,对迁移学习和集成Bagging算法进行了研究,并得出一种改进的组合算法,为在少量目标训练集的情况下进行分类提供了一种适用的框架。首先阐述了集成学习的概念、发展现状,迁移学习的概念、对比分类、应用领域。之后,对新闻文本数据集的预处理过程进行详细的描述,讨论确认了参数和特征选择算法,使预测分类模型的训练数据输入更精准合适。最后,本文针对目标域的训练样本数量较少,无法建立优质分类模型的问题,探讨了一种在迁移框架下基于集成Bagging算法的跨领域分类模型。该模型引入源域的数据并对其进行筛选,学习混合数据集,从而建立基于集成Bagging算法的分类模型,最终投票得出预测结果。通过仿真实验的对比,采用基于贝叶斯基分类器的集成Bagging算法能使源域的迁移和目标域的分类准确率、泛化性能最好。同时,本文分析了源域中的噪音数据的数量对分类模型的影响,实验结果表明基于迁移集成Bagging算法的模型可以部分地规避负迁移。综上所述,本文针对不同的特征选择算法,研究了文本预处理过程中特征选择算法的差异。针对国内搜索引擎中很少能找到完整的英文预处理流程,本文改进了中文文本处理程序,整理出一套完整的图形化的英文文本预处理方式。将迁移学习与集成学习结合起来,综合探讨了跨领域的数据和不平衡数据的解决方式,给出了一种基于选择迁移的集成Bagging算法的分类模型,实验表明该模型整体性能较好,并且能规避一定的负迁移。
其他文献
随着杭州城市轨道交通以及运营网络的建设与发展,以轨道交通枢纽站点为中心的交通枢纽将逐步形成,这些城市交通枢纽站点无疑将会成为杭州未来城市新的重要节点和生活中心。合
为探讨不同桩径、不同桩长的旋挖成孔嵌岩灌注桩在不同荷载水平下的荷载传递规律,基于印尼某燃煤电站桩基工程,在6根嵌岩桩桩身安装钢筋应力计进行单桩竖向抗压静载试验。试
大直径钢管桩通常用作海上风机及海洋平台基础,与陆上桩基础相比,其厚径比较小,且水中及水面以上桩身自由段较长,加之海洋地质条件及海洋环境荷载复杂,受荷后可能发生桩身的
刑讯逼供是导致冤错案件发生的重要原因。晚近曝光的不少冤错案件,诸如“吉林刘忠林案”“安徽涡阳‘五周杀人案’”等,无不与刑讯逼供密切相关。可以说,刑讯逼供的“幽灵”仍然
报纸
<正>山体模型是将山体局部区域的实际地形、地貌和地表覆被等按照一定比例缩小的立体模型。制作时常以泡沫、塑料、木板、石膏等为原材料,经过软件分析、材料选购、按样缩放
当今制造业对成本控制的要求提高,加上市场竞争的加剧,如何分配和控制间接费用对制造企业来说更加重要。首先,随着企业管理水平的提升,管理模式也随之改变,我国船舶企业进行
陶瓷文化不仅是中华文明的缩影,也是世界文明的一个发光体。客家文化是千百年来客家先民勤劳、勇敢和艰苦卓绝精神的沉淀,是中华文化中的重要组成部分,是人类文明中的独特一
上个世纪八十年代末期,福利彩票作为一种新的娱乐方式开始进入人们的生活,并获得了较为广泛的关注和参与。福利彩票不仅仅能够为人们提供精神上的享受,而且为我国的公益事业也做
1病例介绍患者,34岁,因孕39^+2周、疤痕子宫于2007年2月17日入院待产。生育史G2P1,患者在2004年1月在外院行剖宫产术,指征不详,娩出1活女婴,体重3300g,产后6天新生儿肺炎、败血症死
随着产学研结合政策环境的逐步完善,组织模式的不断创新,内容的不断丰富,结合层次的不断提高,科技中介机构在产学研结合中的重要作用将越来越大。通过对国外科技中介机构在产学研