基于深层语言学表示的自动问题生成技术

来源 :南京大学 | 被引量 : 0次 | 上传用户:yuhuiru871124
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为自然语言处理领域的一个子任务,问题生成致力于从给定的上下文和答案中自动生成自然语言形式的问题,该问题以给定上下文为依托,以指定答案为正确回答。近年来,随着深度学习技术的发展,应用神经网络自动化、大规模生成高质量问题成为可能,问题生成技术也逐渐受到越来越多自然语言处理学者的关注,成为热门研究领域。本文研究如何通过有效利用文本语言学特征,如命名实体识别(NER),词性标注等,提升问题生成质量。传统基于神经网络的问题生成系统通常基于经典的序列到序列(Sequence-to-Sequence)框架,并融入注意力机制(Attention Mechanism)、复制机制(Copy Mechanism)等。它们使用传统词嵌入的方法,将文本语言学特征用一个可训练的向量矩阵表示。这种表征方式并不能帮助模型有效利用内涵丰富的文本语言学特征。为解决该问题,本文提出一种基于预训练模型的深层语言学特征表示方法。具体来说,我们通过把预训练模型在多种自然语言处理任务上进行微调,得到一系列语言特征表征器。这些表征器能够产生针对不同语言学特征的表征向量。接着,我们把表征向量融合到序列到序列的模型中,使得模型在构造问题时能够充分利用深层语言学特征。除此之外,本文还针对自动问题生成领域,提出一种全新的文本语言学特征QAF(Question Answering Feature)。该特征能够提供与问答相关的信息,辅助问题生成器生成可回答性高的自然语言问题。为了验证方法的有效性,本文在两个最常用的问题生成数据集,SQu AD和MS-MARCO上,进行了大量实验。实验结果表明,我们的深层语言学表征方法能够帮助基础问题生成模型在SQu AD上提升17.2%的BLEU-4值,在MSMARCO上提高6.2%的BLEU-4值,从而超越现有最先进的(state-of-the-art)模型。另外,本文进行了大量案例研究(case study),分析深层语言学特征表示对生成问题质量的提升。最后,本文还提出一种通用的基于数据划分的模型表现上下界探测方法,该方法能够预测模型在同一数据集上最好最坏表现,从而帮助研究人员更全面的了解模型。
其他文献
二维材料是指一类由单层或少层原子或分子层组成的,在一个维度上尺寸减小到极限的纳米材料,伴随着2004年石墨烯通过机械剥离法被成功制备,研究者对二维材料家族的探索开始不断深入,而二维材料的制备及其表征是这一领域极为重要的两大课题。本论文就沿着这两条研究线路分别展开。在制备方面,化学气相沉积法(CVD)是目前一种有望应用于大规模生产二维材料的可靠方法,它有可控性好,可重复性高,成本相对较低等优点,因此
祥林嫂——旧中国农村劳动妇女的典型形象。她勤劳、善良、质朴,具有·顽·强的生命力和·坚·韧的反抗精神,但·终·于受侮辱、受迫害。小说《祝福》正是通过对祥林嫂形象的塑造,深刻地揭露了封建礼教对劳动妇女的精神摧残和它的吃人本质,指出了彻底反封建的必要性。...
期刊
目的比较不同的穿刺活检方案对多参数磁共振(mp MRI)前列腺影像报告与数据系统(PI-RADS)评分4~5分患者的诊断效能。方法回顾性分析2018年1月至2020年2月南京大学医学院附属鼓楼医院378例前列腺PI-RADS评分为4~5分且接受前列腺靶向穿刺联合系统穿刺患者的临床资料。纳入研究的所有患者的穿刺活检操作均经会阴途径,在mp MRI/经直肠超声融合图像引导下,先行靶向穿刺,再行12针系
化石燃料的过度使用,导致了全球性的能源危机和环境污染问题。电催化技术是实现可持续化生产化学燃料而不产生有害副产物的有效途径之一。一方面可以通过电催化还原CO2,将其转化为水和化学燃料,从而降低CO2排放量;另一方面,电催化水分解作为电催化还原CO2的半反应,可以产生氢气(H2)和氧气(O2),提供可再生清洁能源。催化剂是实现高效电催化反应的关键因素,铁基反钙钛矿材料由于其丰富的物理性质以及灵活的成
自上世纪以来,高温超导材料作为未来极具应用前景的材料受到人们的广泛关注。但当前高温超导的物理机理仍然不清楚,有待进一步研究。5d过渡金属铱氧化物因其d轨道电子在强自旋轨道耦合效应与电子关联效应共同作用下而具有许多新奇的物理性质,有望通过电子掺杂而实现高温超导。铜基高温超导是基于铜原子的3d轨道电子,因此探索5d轨道电子对高温超导的机制研究具有重要意义。当前,对于5d铱氧化物的研究多集中于反铁磁型M
[研究背景]舌癌是最常见的一种口腔癌,近年来发病率也有逐渐增加的趋势。癌症的免疫疗法是是在手术治疗、放射治疗、化学药物治疗之后治疗癌症的新领域。已有研究证实肿瘤微环境与肿瘤的免疫逃逸密切相关。肿瘤微环境是肿瘤发生、生长的内外环境,是促进癌细胞增殖、存活、侵袭和迁移的必不可少的参与者。肿瘤微环境中淋巴细胞的浸润类型和PD-L1的表达与免疫治疗的预后密切相关。弥散加权成像技术(diffusion-we
【目的】基于健康信念模式自行设计、制定父母口腔健康信念问卷,对3~5岁儿童及其父母进行问卷调查,分析早期儿童龋齿现状及其影响因素。探究早期儿童龋齿对儿童口腔健康相关生活质量的影响,为有针对性地开展儿童口腔卫生健康教育活动和制定有效的防护措施提供依据。【方法】1.通过文献检索、小组讨论初步形成父母口腔健康信念问卷,经过两轮专家函询,根据专家提出的意见、专家的积极系数、权威系数以、协调程度等最终形成父
软件众测是一种新型的软件测试模式,主要基于众包技术将原本由公司内部专业测试人员完成的测试任务,通过众测平台分发给活跃在平台的众测工作者进行,众测工作者以提交缺陷报告(Bug Report)的形式反馈结果。众测相较于传统的软件测试具有测试周期短、测试成本低等特点,因此受到广泛追捧,具有十分广泛的应用前景。由于众测模式的本质是取决于大量的劳动力,众测工作者之间彼此独立,提交的缺陷报告往往存在大量的重复
目的:基于静息态功能性磁共振成像(r-f MRI),探讨颈动脉狭窄患者脑功能连接与海马亚区体积变化和认知评分的相关性。方法:对2019年01月至2019年12月我科收治的40例颈动脉狭窄患者与社区招募的31位正常对照者行认知量表评估认知功能,多模态磁共振检查测量海马体积,静息态磁共振检查全脑功能连接,分析两组人群的认知功能、海马体积及脑功能连接差异,探讨脑功能连接与海马及亚区体积和认知水平的相关性
产品口碑的形成来自于消费者的反馈积累,消费者在消费后撰写评论是新兴时代下消费后的一种重要反馈。评论评分行为对消费者、商家和平台存在一定的正向作用:消费者通过评论评分方式表达自身的喜好,满足自身对产品体验倾诉的需求;商家可以从消费者的反馈中理解用户的需求,根据消费者评论表达的诉求进行行为的改正和策略的修订,针对性地将商品质量、服务水平、环境卫生进行优化,从而提升商家的服务水平;一些开放的用户点评评价