基于多文档多答案的机器阅读理解研究

来源 :上海财经大学 | 被引量 : 1次 | 上传用户:seanchn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器阅读理解是自然语言处理领域中问答系统任务的主要研究方向之一,其目标是结合给定的文本来得出所提问题的答案,属于监督学习任务。由于在传统的问答系统中,答案的提取方法过于繁琐,大量的信息无法得到有效利用,多数情形下难以高效地从原始文本中提取结构化的信息。而机器阅读理解技术则可以更好地提取原文中与问题有所关联的内容,从而较为精确地给出与问题匹配的答案,不仅可以促使问答系统变得更加健全,同时还能为实现高级人工智能打下根基。现阶段的机器阅读理解任务中多以双向注意力流模型Bi DAF为基础,采用多阶段的、层次化的处理,使得其可以捕获原文不同层级的特征,同时采用无记忆的双向注意力机制加强了原文和问题特征间的学习。但作为处理机器阅读理解任务的热门模型,Bi DAF也有其局限性。原始的Bi DAF模型的输出层在一般情况下是利用softmax函数在原文中寻找答案的开始位置和终止位置,仅应用于单答案的阅读理解任务。本文的研究围绕多文档多答案的机器阅读理解任务,涉及理解、推理等复杂技术,以Bi DAF模型为基础,根据具体任务对模型做出针对性的修改。使用的数据是面向军事应用场景的大规模中文阅读理解数据集。该数据集包含24,445个问题答案对和62,789篇文章,其中每个问题答案对对应5篇文章,同时答案个数可能不唯一,均是抽取自原文档中的文本信息。本文的主要研究工作如下。首先对所使用的数据集进行了初步的分析工作,包括统计文档的长度、答案的信息来源文档及其个数与长度,改善分词过程并统计词频,探究数据各字段文本间的相似性。特别地,经验证得到作为答案信息来源的文档相比于非答案信息来源的文档而言,它们与其相应问题间的余弦相似度显著高于后者的初步结论,从而为后文筛选输入文档的工作提供依据。其次,改进了Bi DAF模型的输出层,使其适用于多答案的机器阅读理解任务。为了将模型实际应用于本文的数据集中,考虑利用已融合问题信息的原文的词向量矩阵,将其中所包含的语义信息通过可训练的权重向量映射为对应于原文每个词的标量,并通过给定阈值以及假设检验的方法得到预测答案。然而,由于可能存在某些答案无法通过阈值筛选得到,但它们在其局部序列中是较为突出的,因此进一步地构建了更加灵活的局部变点检测方法,并同样利用t检验获得答案。此外,还根据改进后的的输出层重新定义了合适的损失函数以优化模型。经实验,相比于单一的阈值筛选方法,使用了局部变点检测方法的模型对答案的预测效果有明显的提升。最后,为了进一步提高模型预测的准确性,采取了以下措施对模型进行改进:一是利用softmax函数及相应的阈值对每个问题答案对的5篇文章进行筛选,在几乎不损失关键语义信息的前提下尽可能减少输入模型的文本量以提高模型训练的效率;二是在模型的双向注意流层后引入自注意流层,使模型更深层次地学习语句内部的词依赖关系,捕获句子的内部结构,加强其对原文及问题特征的学习;三是以字嵌入代替词嵌入,从而消除由大量专有名词导致的分词效果不佳而引起的分词边界误差。通过比较测试结果可以发现,自注意力机制的引入能够小幅提升模型预测答案的准确性,但以字嵌入代替词嵌入反而会使得模型的预测效果下降。
其他文献
全面实施预算绩效管理是党中央的重大部署,是现阶段的一项重大变革。2022年政府报告指出,要重点深化预算绩效管理改革,增强预算的约束力和透明度。充分说明在推进预算资金有效运用,高效发挥各个单位的职能作用上,加强预算绩效管理在行政单位中显得格外重要。重视加强预算资金管控,稳步提升预算资金的使用效益,注重结果导向,成本效益,责任约束,以此建立政府权力的制约制度,把权力关进制度的笼子里,防范财务舞弊和公权
学位
扶贫开发四十年,我国减贫工作取得了可喜的成果。然而随着脱贫攻坚的推进,扶贫边际效应呈现递减趋势,脱贫与转贫并存。如何做好脱贫后续发展和转贫防控,不仅关乎精准扶贫工作的成效巩固,而且关系我国全面建成小康社会的质量水准。在现有的成绩上,要巩固脱贫成果,提高脱贫质量,将脱贫攻坚战由“打赢”向“打好”转变,防止转贫至关重要。过去转贫研究集中在贫困人口脱贫后再贫困的返贫问题上,且以定性、宏观及事后治理为主。
学位
经济预测主要是减少不确定性因素对工业经济发展影响的一种科学认识活动,通过对统计指标变化的预测来达到预判行业整体发展速度、质量的目的,而计算同比增长率是衡量统计指标变化的主要方法。统计局在进行行业宏观经济指标的统计时常以规模以上企业为统计范围进行全面调查,而规模以上企业基数是一个变量,不同统计周期对应的规模以上企业存在隐性变动,故对规模以上企业经济增长预测时,必须充分考虑到基数变动带来的影响。本文以
学位
现如今,青光眼是使患者失明的主要眼部疾病之一。从眼底图像中得到的杯盘比指标是诊断这一眼部疾病的重要依据。其中杯盘比是根据图像中划分出的视盘和视杯区域的最大垂直直径计算得到,而这两个区域的精确分割通常需要有多年经验的眼科专家来完成。现实中人工分割效率低下,因此借助模型完成此类分割任务具有很重要的实际应用价值。先前对眼底图像分割模型的研究往往追求在单个数据集上的分割效果。但是,对于由不同眼底照相机得到
学位
随着时代的发展,互联网科技发展突飞猛进,互联网和大数据带来的问题是由于信息过载而导致信息利用率低。在这种情况下,对于推荐系统的研究逐渐吸引人们的目光。推荐系统可以向用户推荐他们可能比较感兴趣的东西,通过进一步探究用户的行为,了解不同用户的个性化需求,把大量的长尾商品推荐给可能对其感兴趣的用户,不仅节省了用户的时间成本,同时也为使用推荐系统的网站本身带来了更多的利益,甚至可以推荐给用户一些他们感兴趣
学位
在世界高速发展的今天,石油作为战略资源其重要性不言而喻。因此确保石油高效、稳定的开采有着重要的意义。在石油开采过程中,结蜡问题一直是一个挑战。数据显示我国原油含蜡量高,据统计,含蜡量超过10%的原油几乎占所有产出原油的90%,而且大部分超过20%。高含蜡量也就意味着更高的结蜡风险,以及更高昂的清蜡成本。因此有效的预防结蜡对原油开采公司有着重要的意义。为帮助原油开采公司探索结蜡规律,预防结蜡问题,节
学位
随着互联网及其相关技术的发展,人们在享受网络带来的便利的同时,也面临着严重的信息过载问题,在面对海量信息的同时,不仅难以获得对自己有用的信息,也降低了自己的浏览体验。推荐系统是解决信息过载问题的有效手段,它能从用户的历史记录里学习到用户的偏好信息,并基于此预测用户在未来的信息获取需求,做出个性化的推荐。推荐系统不仅大大提高了用户获取有效信息的效率,提高了用户的使用体验,也给使用了推荐系统的企业带来
学位
在信息检索系统中,当用户输入查询后,需要快速返回相应的信息。在类似于知乎、百度知道等问答社区中,当用户提问时,若能快速匹配到最为相似的问题,并返回已有的解答给用户,可以防止重复提问的同时,也可以提高用户的体验。在智能客服或问答系统中,需要对用户的意图进行准确地识别,有效地解决用户的诉求。在上面举的例子中,都绕不开一个最为基础且核心的问题,就是文本语义的相似性判别。以人工智能技术为基础的智能客服系统
学位
随着科技的进步,新闻可以在很多途径下进行传播,大家可以通过各种社交工具以及新闻网站查看到最新的资讯。在这些社交网站上,用户还可以在推送的新闻底下发表自己对此事的看法。发表者有时会用匿名方式进行消息的发布,这就导致了目前网络上各种虚假新闻的出现。这些虚假新闻有如下一些特点:规模大、传播速度快、造假手段多种多样等。对于一些恶意的虚假新闻严重时会造成大众的的恐慌,对企业也会带来一定程度的危害,甚至会造成
学位
近年来自然语言处理技术受到了学术界及工业界的广泛关注,人机对话技术作为自然语言处理技术中重要的应用之一,不断有学者对其进行研究。人机对话系统中一个关键的任务为意图识别,该任务要求聊天机器人能够对用户的输入内容进行语义理解,并将输入内容分类到正确的类别当中。意图识别模块的性能优劣将直接影响人机对话系统的质量好坏。提高人机对话系统对用户输入文本的意图识别能力,能更准确、更高效的服务用户,同时减轻人工客
学位