基于多任务学习与迁移学习的指标抽取技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:hzsbf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
指标一词通常作为描述数量或状况的概念,是对特定对象或其某一方面的水平状况定性或定量的反映,便于相关人员了解、监控特定对象的水准状况。传统获取指标的方式主要是问卷调查或者数据统计,这些方式往往消耗大量人力物力,成本很高。大数据时代,互联网上每天都会发布不同对象的指标评测结果报道,从互联网文本中可以抽取出特定的指标信息,这为研究者了解不同对象的水准状况提供了新的契机。本文聚焦于指标抽取技术的研究,构造了面向中文开源文本的指标抽取标注数据集,提出了基于多任务深度学习的指标抽取模型,并将迁移学习技术应用到实际的指标抽取问题中,主要研究内容及贡献如下:1)指标抽取问题定义及面向中文开源文本的指标抽取标注数据集的构建。由于指标抽取的相关研究较为薄弱,目前的研究对不同情境下的指标定义没有公认的标准,且缺乏公开可用的指标抽取数据集,为了便于研究开展和进行实验,本文以经济指标和军事指标此类宏观指标为例,对指标抽取任务进行形式化定义并构建了一个构建了跨领域的,面向中文开源文本的指标抽取标注数据集。2)基于交织式多任务深度学习的指标抽取模型的提出。本文将指标抽取分解成指标检测与要素抽取两个子任务,并分别建模为文本分类与序列标记任务,利用多任务深度学习解决指标抽取问题。具体而言,我们利用多任务学习让不同任务在学习过程中共享知识,并结合深度神经网络实现任务之间低层特征的共享,之后基于多任务学习到的特征,分别进行每个单独的任务。实验表明,本文提出的模型可以有效提升结果精度。3)基于迁移学习的指标抽取技术研究。我们利用迁移学习来解决含有指标的数据获取困难,指标抽取标注数据集稀缺的问题。在某个领域模型训练任务中获得的知识可以应用于不同领域的同一个问题,我们利用迁移学习的这一特点,通过预训练+微调的方式,使用大量有标注的其他领域的语料训练模型,再使用预训练的模型在特定领域任务上进行微调,减少对训练样本数量的需求。综上所述,本文研究面向中文开源文本指标抽取技术,提出了基于多任务深度学习的指标抽取模型,并利用迁移学习解决实际指标抽取中存在的问题,对于指标抽取技术的发展同时具有理论意义和实际意义。
其他文献
卫星关键单机剩余寿命预测是及时发现并预报故障,实现卫星在轨安全可靠运行,充分发挥卫星应用效能的重要技术手段与保障,对于卫星的设计,使用和监测都有着十分重要的作用。在实际工作中,卫星关键单机具有监测参数多,数据传输过程噪声大,健康指标难以确定等特点,给卫星关键单机的剩余寿命预测带来了困难。针对上述问题,本文研究基于机器学习的卫星关键单机剩余寿命预测模型,主要研究如下:(1)卫星关键单机在轨监测参数众
学位
热带气旋和中尺度涡是大气和海洋中典型的涡旋系统,由于自身垂直结构与强大动能,在全球大气和海洋流场中具有强大的物质和能量运输能力,对天气和海洋系统以及气候变化具有重要影响。因此,准确预测大气和海洋中的涡旋系统具有重要的科学意义和应用价值。然而,基于经验关系的统计方法和基于动力学方程的数值方法仍然难以准确预测热带气旋和中尺度涡等涡旋系统。针对上述问题,本文利用机器学习方法对热带气旋和海洋中尺度涡开展相
学位
近年来,降水引发的洪涝灾害频发,定量、定时、定点的降水预报显得尤为重要。数值预报是我国中短期降水预报的主要方法,但是数值预报模式输出的降水量往往与实际情况存在偏差,需要对数值预报产品进行偏差订正。然而传统方法通常都是基于线性相关分析挑选预报因子,再在线性相关的基础上建立预报模型,对于降水这种高度非线性的问题往往难以得到令人满意的预报效果。本论文主要研究机器学习对数值预报模式降水产品的偏差订正。首先
学位
随着量子算法和量子计算机技术的发展,基于传统经典难题的公钥密码体制将不再安全。区块链作为当前最前沿的研究领域之一,其共识机制的安全性面临着量子攻击的威胁。研究设计抗量子区块链成为亟待解决的问题。近年来,人们提出了基于格理论的区块链签名方案,这些方案虽然具有理论意义,但由于密钥和签名的尺寸较大,不适合应用于区块链中。为了解决上述问题,本文研究基于理想格的签名方案,主要研究成果如下:(1)提出了适用于
学位
随着市场需求的变化,服装向着满足消费者个性化需求的方向发展,服装订单以多品类、小批量、短周期为特征,这就要求服装生产线不仅需要解决提高产能的问题,同时还要提高生产线的柔性快速反应能力,从而及时应对新订单到达时的排产和交货需要。提高生产线的柔性快速反应能力,需要提高人员和设备资源的配置速度。在生产线的加工任务已经明确后,通过服装生产线的人员和设备资源的协同配置,实现生产计划的顺利进行。提高生产线的生
学位
锂离子电池作为广泛应用于生活消费产品和国防工业设备的供能单机,对其健康状态和剩余寿命的研究意义重大。随着锂离子电池应用的增多和数据收集技术的发展,可以监测搜集到锂离子电池多种相关数据。本文基于机器学习利用多维的监测数据,实现不同充放状态下的锂离子电池健康状态估计和剩余寿命预测。本文主要研究包括如下:(1)给出锂离子电池在不同充放电状态下的健康指标和参数选取方法。针对两种锂离子电池充放电状态:完全充
学位
微机械谐振器具有体积小、能耗低的特点,被广泛应用于工业生产、社会生活之中,研究微机械谐振器性能参数的改善方法具有重要意义。在对微机械谐振器的研究中,非线性效应日益成为不可忽略的影响因素;另一方面,研究表明微机械谐振器是一种探索非线性动力学的理想研究对象。论文以嵌套环微机械谐振器为研究对象,通过创新结构设计实现微机械谐振器性能参数的改善,探索非线性作用下微机械谐振器模态间耦合效应。论文的主要研究内容
学位
蒸发波导是海面经常出现的一类特殊大气层结,对电磁波的衰减和传播路径有重要影响,准确及时地预测蒸发波导高度(Evaporation Duct Height,EDH)对于海上电磁通信设备的有效应用具有重要意义。针对基于Monin-Obukhov相似理论建立的蒸发波导理论模型诊断误差较大的问题,充分挖掘蒸发波导实测数据特征,利用机器学习算法开展蒸发波导高度诊断模型研究,主要研究内容包括:1.针对水文气象
学位
在软件定义一切的时代里,软件开发是一门特别强调实践能力的学科,如何有效地度量学生在软件开发方面的能力,对学生培养和企业招聘具有重要价值。本文围绕学生软件开发能力评估问题,基于在线学习数据,包含课程学习数据、在线编程数据、学生行为数据等提出了知识广度、编程能力和个性特质维度的建模评估方法,实现对学生在软件开发下的多维度综合评估,论文的主要工作内容和创新点如下:1,提出了基于知识图的学生知识广度评估模
学位
4G时代传统媒体的下滑在很大程度上是由于网络技术对用户生产的赋权造就了人在大众传播中的过分彰显,而5G技术则彻底激发了媒介物质性潜力从而引领了物在传播中的回归。以5G视频为核心的媒介物质将加速视频化社会的到来,并进而重构电视传播的功能属性、内容形态、技术形式和媒介场景。电视媒体要抓住机遇迅速进行转型,发展成为一个与社会生产生活具有多维连接的视频生产创造者和网络枢纽。
期刊