融合语言学特征的中文机器阅读理解研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:csc000000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
理解自然语言是人工智领域面临的一项艰巨挑战,近年来热门的机器阅读理解(Machine Reading Comprehension,MRC)任务以“问-答”的形式检测模型对自然语言的理解能力。尽管各类模型在多个数据集上的性能已经超越人类表现,但是与真实场景的应用还有一定差距。针对中文机器阅读理解任务的数据和模型,本文主要研究内容如下:1)提出一种中文机器阅读理解问答对数据生成方法。机器阅读理解任务的关键挑战之一是标注数据的稀疏性,一种可选的解决方法是无监督地从大规模的非结构文本生成问答对数据。因此本文提出了一种中文机器阅读理解数据生成方法,以深度生成模型条件变分自编码器为基础,以文本段落为先验条件,构建问题和答案的隐空间,得到问答对生成模型。通过从维基百科中筛选的段落无监督地生成对应段落中的问题与答案对,并提出了一种综合考量问题和答案质量的评分与筛选方法来评估问答对的质量。实验论证了生成方法的有效性,仅仅使用人工生成的问答对数据训练的机器阅读理解模型在CMRC2018数据集的验证集上就可以得到74.69%的F1精确率和57.35%的EM精确率。2)提出一种融合语言学特征的中文机器阅读理解方法。对于机器阅读理解模型,预训练语言模型虽然能够为每个词提供优良的上下文表示特征,但却无法显式地给出语言学特征,而这些特征往往是理解整体语义的基础。本文通过显式地引入语言学特征,探究其对于预训练模型阅读理解能力的影响。首先,本文选用了词性标注和命名实体识别来提供词法特征,使用依存分析来提供句法特征,将二者与预训练模型输出的上下文表示相融合。随后,我们设计了基于注意力机制的自适应特征融合方法来融合不同类型特征,在CMRC2018数据集上的实验证明本方法以极低的算力资源成本,引入语言特征可以帮助模型在F1和EM指标上分别可以取得0.37%和1.56%的提升。3)设计并实现了一个开放域中文机器阅读理解系统。以上述工作中最优的机器阅读理解模型为基础,设计并实现一个开放域中文机器阅读理解系统,直观地展示本文工作结果。首先介绍了系统功能的设计与实现,包括数据交互与实例展示的的流程,接着介绍了在实际应用中如何对输入的文本数据进行数据的预处理以及答案的抽取,最后进行了具体示例的展示。
其他文献
目的 探究白细胞介素34(IL-34)对大鼠根尖牙乳头干细胞(SCAP)成牙、成骨分化的影响。方法 采用酶消化法分离培养大鼠SCAP,实时荧光定量PCR检测IL-34在大鼠SCAP中的表达。采用噻唑蓝(MTT)法分析不同浓度IL-34对大鼠SCAP增殖活性的影响。茜素红染色观察矿化情况,划痕实验检测增殖能力,实时荧光定量PCR检测成骨相关基因碱性磷酸酶(ALP)、牙本质涎磷蛋白(DSPP)、 Ru
期刊
本文对出院准备度的概念、评估工具进行了研究,对肺癌患者出院准度的现状及影响因素等作一综述,为改善和发展肺癌患者出院准备度的临床护理干预提供参考。
期刊
<正>思想政治理论课(以下简称思政课)作为落实立德树人这一根本任务的关键课程,是用党的创新理论培根铸魂、启智润心的主渠道和主阵地,在培养社会主义建设者和接班人的过程中发挥着不可替代的重要作用。当前思政课已进入到了善用“大思政课”整体实践的育人新格局,要深入学习习近平总书记关于教育的重要论述,结合正在开展的主题教育相关内容,坚持社会主义办学方向,在涵养大情怀、建设大阵地、构建大师资上下功夫,用好用活
期刊
近年来,随着预训练模型的广泛应用,人机对话技术的研究取得令人振奋的进展。但是,目前的人机对话系统大多聚焦于人机双方参与的应用场景,对于更具有通用性的人机多方对话的研究及应用则鲜有涉及。在多方对话中,多个参与者在交流中所扮演的讲者及听众的角色不断并行交替,极大增加的对话关系结构的复杂程度。由于角色和结构的多样性差异,传统的人机双方对话模型缺少相应的建模策略,因此往往很难直接迁移到多方对话场景。本课题
学位
图像去噪是一项基础且重要的任务,常用于从美学角度提升图像的视觉质量,同时也有助于改善下游任务的效果。在当前阶段,得益于深度神经网络的强大拟合能力,通常会训练单一模型来处理不同噪声水平甚至不同类型的真实图像噪声。然而,由于深度网络主要通过拟合训练数据来实现对各种图像噪声的去除,当模型被应用于训练集中未涉及的噪声水平或噪声类型时,去噪性能通常会显著下降。同时,现有的方法对于图像中的高频纹理信息没有过多
学位
标题党新闻是人们生活中常见的一种低质资讯,标题党新闻过多地充斥会影响人们阅读新闻的主动性,压缩优质内容生产者的生存空间,也对新闻本身强调的真实性和可靠性有所影响,如果不对标题党新闻加以限制,未来将会成为谣言和虚假新闻的温床。本文针对标题党新闻泛滥的现象,就标题党新闻检测方法进行了探索。意在研究出一种面向真实新闻能够有效识别出新闻是否是标题党新闻的算法。通过比较国内外对于标题党新闻整治所采用的方法,
学位
心血管疾病已成为全球人口死亡主要原因之一,严重影响着人类健康和社会发展。有效的预防、检测及治疗可显著地降低心血管疾病的死亡率。而血管内光学相干断层扫描技术(Intravascular Optical Coherence Tomography,IVOCT)作为现今前沿的血管成像技术之一,由于相比于其他成像技术,对血管组织的成像具有分辨率高等特点,从而在临床中得到广泛应用。然而,在成像过程中牵引探头的
学位
随着深度学习技术的不断发展,并且深度学习也成功应用于单智能体强化学习中,多智能体协同强化学习也在这个浪潮中得到了非常广泛的发展和应用。多智能体协同算法的主要目的是通过智能体群环境的不断交互,寻找到一个获取总体目标最大价值的最佳策略。强化学习在训练过程中通过不断和环境交互的方式进行收集经验,并根据这些经验进行学习。这些经验数据一般需要与环境进行大量的交互,这些对智能体的训练都带来了严峻的挑战。加速这
学位
动态目标追逃问题是一类主要受军事需求牵引而提出的问题,尤其在搜潜反潜、飞机拦截、卫星发射等军事细分领域得到了非常广泛应用。当前针对动态目标进行高效搜索追逃,国内外研究人员提出了微分博弈、经验方法等多种方法加以解决。但是当前研究对信息缺失条件下的动态目标搜索追踪策略研究不够充分,对各种搜索追踪策略缺乏一定的综合分析,尚未整合各类动态目标的搜索追踪策略,没有形成一套行之有效、可在实践中实际使用的操作集
学位
随着服务计算的发展,海量的服务互联互通形成了复杂的服务网络,海量的服务资源在给我们的生产生活带来遍历的同时也变得更加难以管理。知识图谱的结构与复杂网络十分契合,构建服务知识图谱管理海量的服务资源成为一种选择。服务知识图谱在构建过程中需要使用到很多自动化技术,如命名实体识别技术、关系抽取技术、模式匹配,知识图谱自动化构建技术在提高知识图谱构建效率、减小构建知识图谱的代价的同时,也不可避免地引入了很多
学位