基于深度学习的藏文抽取式机器阅读理解研究

来源 :中央民族大学 | 被引量 : 0次 | 上传用户:gzsoft168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的不断发展,自然语言处理的研究逐渐转向自然语言理解的研究,机器阅读理解便在这个大背景下应运而生。机器阅读理解不仅仅是对文字的“感知”,更是对文字的“认知”。机器阅读理解任务要求机器理解上下文本信息后,准确地回答出相关的问题,其结果可以用来评估机器的阅读理解能力。通常情况下,该任务需要机器能够对文本中的单词进行词性标注和命名实体识别找出其中的实体信息,更深层的则是需要机器执行句法分析来理解文本中的语法结构或者进行指代消解来理解文本等。目前,机器阅读理解在中英文领域上已经取得了显著的成绩,但是针对藏文的研究却面临着诸多问题,目前仍处于探索阶段。首先,藏文机器阅读理解任务缺乏大规模公开的、高质量的数据集;其次,采用纯人工构建的方式比较耗时,如何利用机器辅助生成问句成为尚待解决的问题;最后,传统的中英文机器阅读理解方法直接应用到藏文任务上,存在藏文信息遗漏,模型“理解能力”不足等问题。基于以上问题,本文针对藏文机器阅读理解任务展开了研究,主要工作如下:第一,本文构建了一个高质量的藏文机器阅读理解数据集TibetanQA(Tibetan Question Answering Dataset for Machine Reading Comprehension),该数据集涵盖了 12个领域的事实性知识和20,000条问答对。针对构建的数据集,本文从问题类型、逻辑推理、答案类型、段落长度等方面进行了多维分析,并采用基于语言特征消融的方法对数据集进行评估。实验结果显示TibetanQA数据集在词语理解、语义构成、内部语境理解和前后关联等方面具有考察能力,可以用于评估模型对藏文文本的阅读理解能力。第二,本文提出了一种基于奖励机制的序列到序列藏文问句生成模型TQGR(Tibetan Question Generation based on Rewards)。为了解决问句生成中存在未登录词和低频词的问题,该模型采用了“生成-复制”机制和注意力机制相结合的方式去生成问句,同时引入“奖励机制”对生成的问句进行评分并反馈给生成器,优化问句的流畅度和上下文相关度。实验结果表明TQGR模型在ROUGE-L上达到了 38.54%,比传统的序列到序列模型效果提升了 11.41%。第三,本文提出了一种基于多级注意力机制的藏文机器阅读理解模型Ti-Reader(Tibetan Reader)。首先,本文提出了一种融合藏文音节信息的词向量表示方法。其次,针对模型能力不足的问题,采用了一种多级注意力结构。在词级别引入注意力机制来提取文章中的关键词,在句子级别采用重读机制来获取文章中关键句子信息。同时引入自匹配机制对文章的信息进行再次地“阅读”,避免因问题和文章在形式上存在一定的差异而导致模型遗漏一些关键的信息。实验表明,在藏文数据集上Ti-Reader模型的F1值取得了77.4%的准确率,较基线系统最大提高了 14.0%。
其他文献
近年来我国个人极端暴力犯罪研究逐渐兴起,在取得丰硕成果的同时也一直陷于事实描述与成因分析之中不能自拔。静态的犯罪图像刻画极易掩盖动态的形成机理。个人极端暴力犯罪形成机理的主线是犯罪人主客观特征的动态转化,个人极端暴力犯罪行为的形成需经历"弱势群体失意化""失意群体极端化"两个阶段,由"客观弱势"发展为"主观失意",再由"主观失意"演变为"极端暴力"。2000年至2020年101例个人极端暴力犯罪的
目的探讨黄芩苷对系膜增生性肾小球肾炎大鼠细胞凋亡及NOD样受体蛋白(NLRP)3/含半胱氨酸的天冬氨酸蛋白水解酶(caspase)-1通路的影响。方法将清洁级SD大鼠100只随机分成5组:对照组、模型组、贝那普利组(50 mg/kg)、黄芩苷低剂量组(50 mg/kg)、黄芩苷高剂量组(100 mg/kg),模型组、贝那普利组、黄芩苷低、高剂量组建立系膜增生性急性肾小球肾炎模型,建模成功后各药物组
为推广绿色施工理念,强化建筑工程项目施工管理,分析了建筑工程项目中绿色施工管理的必要性,提出了建筑工程项目绿色施工管理策略:自上而下树立绿色施工理念,选择绿色环保的建筑材料,施工过程中采取节能降耗措施,加强施工现场环境保护,推广适用绿色施工技术,充分运用新型节能技术、新型环保材料,营造良好的施工作业环境,达到理想的绿色施工效果。
建筑行业发展以及运行过程中,为满足行业发展的标准,建筑行业需要把绿色理念当成核心,通过技术的创新、技术的整合等多个手段,发挥绿色施工的优势,满足行业的持续化、绿色化发展需求。在以往的建筑施工中,存在着污染严重、能源损耗等问题,这些现象若不能及时处理,不仅会影响建筑行业的施工质量,也会增加工程项目的管理难度,无法满足行业的持续化发展需求。根据建筑施工技术特点,对绿色理念的融入进行分析,认识实际建筑施
基于MEMS陀螺仪和加速度计的工作特性,通过初始对准确定目标的初始位置、姿态、速度,计算出初始捷联矩阵,将MEMS器件测量的惯性系的加速度、角速率投影到导航系下,用于更新位置和姿态矩阵和导航计算,并提取出姿态角和位置,由于高度通道系统发散的问题,需引入外部高度测量信息形成负反馈校正,由惯性器件误差机理与特性,实现较为精准的惯性导航。试验结果表明,本文方法能较为准确定位载体位置与速度信息,具有一定参
【指示性摘要】尿路上皮癌(UC)是泌尿系统常见的恶性肿瘤之一,其发病率及死亡率较高,几十年来,标准的治疗方案仍是基于顺铂的化学疗法,但是不良反应较大且疗效不佳。目前越来越多的免疫检查点抑制剂在治疗UC中显示出良好的疗效和安全性,在精密医学时代,UC的未来在于使用疗效更确切、不良反应更小、更有针对性的治疗。同样,开发可靠的预测生物标志物以及创新的治疗组合方法势在必行。本文将对近年来尿路上皮癌免疫治疗
目的:探讨信迪利单抗(达伯舒)联合AP化疗治疗晚期肺腺癌合并恶性胸腔积液的近期疗效、远期疗效和安全性。方法:选取2019年2月至2020年2月四川省眉山市人民医院肿瘤科收治的晚期肺腺癌合并恶性胸腔积液的患者124例作为研究对象(均经病理学确诊),采用中央随机系统分配法分为化疗组63例和信迪利单抗组61例。化疗组接受培美曲塞+顺铂化疗,信迪利单抗组在对照组基础上联合应用信迪利单抗,均治疗4个周期后观
晚期肺癌患者最基本的治疗方式是化疗,其在肿瘤病灶及生存周期的改善中具有明确疗效,但是带来的毒副作用及生活质量的下降也不容忽视,中医药在其辅助治疗中恰好能补齐短板,提高疗效。本文通过检索国内外相关文献,分别从对患者肿瘤病灶、生存周期、生活质量、毒副作用、免疫指标方面将近几年的相关研究做一系统论述,结果示中医药辅助化疗能起到增效减毒的作用,但在癌因性疲乏及癌性疼痛方面的研究较少,生活质量评价标准不够全
目的:优化复方氟尿嘧啶口服溶液包封率的测定方法。方法:采用高速低温离心的方法,分离游离态的氟尿嘧啶,以高效液相色谱法测定药物中游离的氟尿嘧啶,计算其包封率。以Agilent 5TC-C18(2)(4.6 mm×250 mm, 5μm)为色谱柱,流动相为6.8 g·L-1的磷酸二氢钾溶液(用5 mol·L-1的氢氧化钾溶液调pH值至5.7±0.1)-甲醇(95∶5),检测波长为265 nm。结果:氟
社会的快速发展使得人们的生活和计算机视觉的联系越来越紧密,导致目标跟踪在智能驾驶、机器人与监控系统等领域受到了极大关注,目标跟踪在各类系统的应用也越来越广泛。目前,目标跟踪算法依然存在很多问题,例如在复杂背景、快速运动等多种情况下,目标跟踪的成功率低等。近些年随着机器学习相关技术的迅猛发展,基于机器学习的目标跟踪算法进展也十分迅速,但是需要有大量多种场景图片的标准数据来训练卷积参数,其中涉及到十分