基于迁移学习的文本分类方法的研究

来源 :北京邮电大学 | 被引量 : 2次 | 上传用户:ewt43grfdger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随移动互联技术飞速发展,文本类信息爆发式增长,促进基于文本信息的信息安全研究快速发展,包括在邮件过滤、网络安全事件追踪、网络舆情分析等方面广泛应用。时间推移、数据采集条件变化等因素导致数据分布不断变化,致使以“训练/测试数据拥有共同特征空间和相同数据分布”为假设的传统机器学习在现实场景中受严重限制。迁移学习通过对数据、模型等进行适当处理,保证模型在上述情况下的训练效果,从而能更好解决实际信息安全应用中的文本分类任务。本文重点研究异构迁移技术如何挖掘异构领域之间的相关知识,从而更深入地促进目标领域文本分类任务的学习。首先,本文提出基于语义相关性的特征空间构造方法。利用word2vec建立两域特征词汇的向量,以向量间的余弦值表征特征相似性,提取两域相同特征词汇及相似性高于预设阈值的特征对,共同构成两域同构特征空间;经实验验证,该方法取得的分类准确率较未引入语义相似特征的方法平均提升3个百分点。接着,本文提出局部保留分段式异构投影算法。传统线性判别分析投影算法投影后,特征维度降为(分类类别数-1),应用到文本领域会导致大量有用信息丢失,通过分段式投影,使投影后的特征维度可控,更适用于特征空间高维的文本领域;引入局部保留投影算法,解决投影中对样本间局部结构信息破坏的问题;对目标域已标注样本作加权处理,平衡两域样本比例差异过大的问题;经实验验证,该方法在所选两个数据集上取得的分类准确率,较传统机器学习方法平均提高近10个和7个百分点。最后,本文将前两点结合,通过连接互联网的API拓宽目标域中训练数据的来源,设计并实现了应用于实际场景的基于异构迁移学习的文本分类系统。
其他文献
随着湿法炼锌技术的发展,净化工序置换用锌粉的需求越来越大。与其它锌粉制备方法相比,电炉锌粉具有活性好、成本低、原料来源广等优点,从而成为制备锌粉最主要的方法。但人
高血压病为西医病名,是一种极为常见的临床疾病,近些年来成为损害人类健康的杀手。其病因复杂多变,中医病名多样,记载有“眩晕”、“头痛”、“肝风”“头风”等。最早记载在《内
目的:重症急性胰腺炎(severe acute pancreatitis, SAP)具有发病急剧,病情凶险等特点,早期即可出现急性肺损伤(acute lung injury, ALI)并导致死亡。而其确切的发病机制较为复杂,有研
背景膀胱癌是西方国家最为常见的肿瘤之一,而在膀胱癌中最主要的为上皮细胞来源。在美国,尿路上皮癌占到所有膀胱癌的90%。约80%的膀胱上皮癌患者在首次治疗后一到两年便复发
目的:探索2型糖尿病不同证型肌少症的检出情况及其与QT间期、左室射血分数之间的相关性。方法:240例新发糖尿病分为痰(湿)热互结证(65例)、热盛伤津证(134例)、气阴两虚证(41例
近几年来,旅游业的发展势头越来越强劲,逐步成为带动世界经济蓬勃发展的重要产业之一。我国旅游资源丰富,各省市在国家政策鼓励下,大力发展旅游产业,加快第三产业又好又快发展,以提
当前,交通事故的频繁发生引起社会的广泛关注。而公路路侧事故占道路事故的30%以上,常常具有群死群伤的特点。因此,进行公路路侧的安全性研究,选取有效的防护技术设施,进行科
<正>1月5日,中国人民银行联合国家质检总局和国家标准委召开发布会,发布《银行营业网点服务基本要求》《银行营业网点服务评价准则》《银行业产品说明书描述规范》《银行业客
本文介绍了陶瓷辊棒螺旋挤出成型的生产工艺及成型模具的结构形式,并详细论述了成型模具对坯体质量的影响.通过提高成型模具工作表面的设计制造精度、表面光洁度及表面硬度等
中医脉诊客观化,首先要有客观化的采集设备,获取客观和量化的脉象数据。然而作为一种动态的生理信号,脉象具有多变性,脉象采集设备是否能够对信号进行可重复性采集是脉诊客观