面向小数据量垂直领域的问答方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:zaifasoftware
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答任务一直是自然语言处理领域中的研究热点。该任务基于用户问题,从特定数据中抽取到相关信息,进而得到正确的返回结果。目前,与问答任务相关的技术在工业生产中有着丰富的落地场景,能够帮助人们更加高效的获取信息与知识。现在,开放式领域的问答系统日益完善,极大的满足了业界的需求。然而,在面对小数据量垂直领域的问答场景,目前大部分的问答相关技术却难以应付。垂直领域特征词的稀疏问题会导致数据集方差大的问题。数据量小会导致大部分问答的相关算法分别存在过拟合以及欠拟合的情况。目前主流基于统计的方法以及传统神经网络方法在该场景下效果往往不尽人意。基于以上问题,本文提出了多种相应的解决方案。本文的创新点以及相应的贡献如下:(1)提出了基于大规模开放式问答语料和预训练语言模型的领域迁移方法。本文利用大量开放性问答数据在预训练语言模型上进行增量训练,解决语言模型在预训练阶段存在的训练数据语义分布偏差问题。借助丰富的开放性问答语料,让模型在预训练阶段学习到更多不同领域之间的特征词语义信息,进而缓解垂直领域数据存在的数据偏差问题,提高问答任务的精度。(2)提出了基于大规模开放式问答语料的预训练方式QA-Predict。该方法在提高大规模开放式问答语料有效利用率的同时,在预训练阶段便能提高模型的推理能力,从而达到提高小数据垂直领域的问答精度的效果。(3)提出一种引入特征领域词的Bert模型结构。该方法基于特定领域的大数据提取相应的特征领域词,并在Bert模型中通过Attention中的Mask机制引入。进而解决垂直领域特征词离散的问题,提高问答的效果。(4)提出了基于预训练语言模型的知识蒸馏策略。将使用QA-Predict方法进行增量训练的模型作为教师模型,进而在微调阶段(Finetune)通过软标签(soft label)特征训练得到学生模型TQA-Bert。极大的减少预训练语言模型的参数规模,进而提高模型的预测速度并减轻模型的部署要求。
其他文献
作为我国改革开放以来城市化和经济发展最快的城市群之一,珠三角积极探索了发展过程中经济持续高速发展与颗粒物污染治理的双赢模式,率先成为了我国成功实现环境-经济可持续发展的地区。本研究以东莞市为典型城市,首先分析了珠三角地区从1980年至2017年的社会经济发展与颗粒物污染变化过程及特征,阐明其社会经济发展与颗粒物污染控制的双赢发展规律。在此基础上,利用STIRPAT模型与岭回归分析技术,定量评估东莞
国民经济的发展离不开资源的支撑,同时也需要基础设施建设的助力。在城市地铁隧道的修建过程中,盾构法施工是主流,但是钻爆法亦扮演着重要的角色。由于地铁隧道施工环境的特
改革开放以来,随着我国经济体制改革的不断深化,市场机制逐步完善,各地区间的要素流动和经济往来愈发频繁,形成大量具有地区特色的产业集聚区,为我国的经济增长做出了巨大贡献。制造业是我国国民经济发展的主体,制造业集聚是产业集聚的主要形式,更是经济发展的重要引擎。然而在制造业集聚规模不断扩大,经济总量不断创新高的同时,制造业集聚所引发的环境负外部性也日益凸显。为此,文章研究了制造业集聚与环境污染之间的关系
微波加热法在化学反应有着加快反应速率、改变选择性、提高产率和收率等特点,是其他手段无法复制的,因此这种加热方式在无机、有机、高分子、金属有机、材料化学等领域都备受
近年来,发展乡村旅游已成为传统村落提升当地经济、改善人居环境、保护文化遗产的重要途径。因此具有鲜明地域文化色彩和乡土景观特色的传统村落在旅游资源开发中怎样保持原真性,避免景观同质化、产业低质量发展现象的发生更加引人关注。如何使传统村落旅游资源与乡村旅游更好地融合是美丽乡村建设中亟待解决的问题。本文从传统村落景观设计与乡村旅游开发角度,剖析传统村落的具体功能空间、资源类型,从乡村旅游视角研究牧笛溪传
加氢脱硫-辛烷值恢复工艺是催化裂化(FCC)汽油生产国VI标准清洁汽油调和组分的关键技术。但是,在辛烷值恢复过程中普遍存在轻质芳烃与烯烃发生烷基化副反应导致的FCC汽油干点升
随着经济的持续发展,人们对能源的需求不断增加。在此背景下,化石能源的过度使用所造成的资源紧张和环境污染等问题日益显现。为了应对此类问题,各个国家纷纷投入到新型清洁能源的研究中来。在交通运输业上,电动汽车以其污染小、能耗低和噪声弱等优势,被各个国家所青睐。近年来,电动汽车数量与日俱增。电动汽车的蓬勃发展为世界的能源危机问题缓解了压力,也为环保事业做出了贡献。然而,大规模电动汽车无序充电会对电力系统的
本文以绿色化学为指导原则,发展了基于亚甲胺叶立德中间体的菲及二氢菲衍生物的串联反应合成新方法。发展了反式-4-羟基-L-脯氨酸或吲哚啉-2-羧酸与联苯二醛之间新的串联反应
甲状腺结节(Thyroid nodules,TNS)是甲状腺细胞异常增生后出现的团块,总发病率平均在19%~46%,是人群中最常见的结节性病变之一。过去30年中,甲状腺癌发病率增长了2.4倍,严重危害大众的身体健康,其检查的常用手段为超声成像检查。为了辅助医生的诊断,众多研究将机器学习算法应用于超声图像,目前已经实现了完善的基于甲状腺结节超声图像的计算机辅助诊断系统(computer aided
基质辅助激光解吸/电离飞行时间质谱(MALDI-TOF MS)是近年来快速发展的一种软电离方法。该技术与传统质谱技术相比,具有样品制备简单、样品消耗量小、高通量、良好的耐盐性、