面向开放域问答的阅读理解技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:cox_7261
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本课题主要研究阅读理解技术在开放域问答系统中的应用,并设计了结合检索系统和阅读理解技术的问答系统,期望通过这种模式推动阅读理解技术的应用落地。开放域是指提问内容是不限定领域的。阅读理解技术是近几年来新兴的一种答案抽取技术,通过预测答案开始和结束位置来定位精确答案。本课题选择Du Reader作为实验数据,因为Du Reader中的问题是从搜索引擎真实的用户搜索记录中整理出来的,相比刻意标注的问题数据,这种问题能够真实客观的反映问答系统的需求,实验结果也能够更真实地反映实际应用效果。本课题的研究内容主要有以下几个方面,首先,本课题设计了面向多篇章的阅读理解模型。所谓多篇章指的是每个问题对应的候选篇章不止一个,而目前大多数阅读理解任务都是围绕单篇章展开的。多篇章能够显著提高答案的召回率,提高了检索系统的容错率。为了解决多篇章阅读理解任务,本课题基于当前单篇章阅读理解的模型,做了面向多篇章的改进。其次,我们发现模型定位答案篇章,对于模型定位答案具有至关重要的意义,而简单地将模型设计为先定位篇章,再定位答案的模式又容易造成误差累计。于是我们通过为模型增加一个篇章排序子任务,训练时采用多任务学习的方法,使模型底层同时具备定位答案篇章和抽取答案片段的能力,提高了模型性能。然后,本课题研究了阅读理解模型从开放域到特定域的迁移工作。和许多基于深度学习的模型一样,阅读理解模型也会存在特定领域数据不足的问题,为了解决该问题,本课题设计了两个迁移学习方案,一种是典型的固定模型并使用预训练和微调方式的迁移学习,另一种是结合了对抗学习的迁移学习。对抗学习的应用是为了通过欺骗判别器对领域的识别,来实现知识从开放域数据到特定域数据的迁移,在提高了模型在特定于的性能的同时,缩短了训练时间代价。最后,本课题将上述成果集成到问答系统,来模拟其在实际应用场景中的效果。为了更好的评价问答系统,我们使用了人工评价的方式。另外,我们还分析了系统的效率,以及存在的问题,为未来的工作方向提供指导。
其他文献
产品简介一、产品性质和主要用途徐州矿务集团新疆天山矿业公司俄霍布拉克煤矿生产煤炭属长焰煤,高挥发分,低灰,低硫,高热值,块煤不易碎,固定碳含量中等,受热后不易结焦,燃烧上火快,火
SD13型推土机是山推股份公司依靠科技进步,紧跟国际先进技术而研发的。SD13S型推土机为液力传动、液压操纵、履带式工程机械,主要由动力系统、传动系统、液压系统、车架及后桥
近年来,中国高速公路得到了快速发展,年均通车里程超过了4000km。到2006年底,中国高速公路通车里程已超过4.54×10^4km,位居世界第二。随着高速公路建设的快速发展,一些问题逐
2008年7月1日,舟山跨海大桥——金塘大桥主通航孔桥实现贯通。舟山连岛工程金塘大桥位于舟山金塘岛与宁波镇海间的灰鳖洋海域,起点为金塘小岭,跨越沥港水道、灰鳖洋、宁波镇海、
广西柳州市古岭酒厂座落在风景秀丽的柳州市柳江县拉堡镇,始建于1990年10月.从白手起家,靠借款5万元开始创业,古岭人发扬"特别能吃苦、特别能开拓,特别能创造;珍惜每一天,做
<正> 汽车和机械设备的润滑,是延长设备使用寿命,减少机械设备故障的重要措施。随着我国进口机械日益增多,国产汽车机械质量日益提高,对润滑油的品种和质量等级要求也日益严
文章针对我国普通院校环境艺术设计专业设立时间较短,在课程设置上还处于探讨阶段的现状,从专业教育状况、课程设置以及教学方法等方面来探讨环境艺术设计专业的课程建设。
碳酸盐岩是岩溶地区修建公路的主要砂石材料来源,贵州岩溶地区碳酸盐岩资源丰富,如何合理利用该项资源,是公路建设中急需解决的问题之一.根据贵州岩溶地区碳酸盐岩分布特点及
应用中西医结合方法治疗慢性萎缩性胃炎166例,凡幽门螺杆菌阳性者先三联(羟氨苄青霉素+庆大霉素+灭滴灵)清除幽门螺杆菌治疗2周,同时服华山胃药3个月。临床症状好转率、镜下