基于seq2seq的阅读理解问题生成器模型研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:yhmlivefor53
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在教育领域,老师通过提问来引发学生的思考,学生通过自我提问来考查自身对知识的掌握情况。但是老师通过知识信息人工生成问题需要耗费大量的时间和精力,而学生自己提问有时难以把握知识重点。为了解决这些问题,提高教学质量,研究者开始研究如何通过问题自动生成系统提供足够的问题来减轻讲师的负担,帮助学生自学。与此同时,在聊天机器人的对话领域,问题生成模型可以让聊天机器人通过自然提问的方式,更好的与人沟通,进一步提高其智能化。一开始研究者采用的是通过解析句法结构的思路来进行问句生成,而随着深度学习的不断发展,越来越多的研究者使用深度学习中的seq2seq模型作为问句生成模型的基础结构,因为seq2seq模型在处理序列数据上,具有其他模型难以比拟的优势。本文结合已有的研究情况,考虑到句子的语义结构和生成的问题类型有一定的联系,并且人们对于一段描述性文本只会提出特定方面的问题,本文提出了一个基于问题模式选择的seq2seq-attention问句生成模型。具体工作内容如下。(1)在词嵌入阶段,采用的是通过构建词汇间的共现矩阵来学习词向量的Glo Ve模型。传统的词嵌入方法word2vec训练出的词向量包含的语义信息极为有限,仅仅能进行词语相似度比较等有限的任务。而Glo Ve模型构建一个词汇间的共现矩阵,通过计算不同词汇共现频率的比值来增大词汇之间区分度,因此能够对句子的潜在语义进行分析,并用词向量表达出来。实验证明使用Glo Ve作为词向量学习的问句生成模型在BLEU评分上取得了1.0左右的提升。(2)在传统的seq2seq模型的基础上,在编码阶段使用双向LSTM(Bi-directional Long Short-Term Memory,Bi LSTM)结构作为神经网络单元,能够比单层LSTM更加完整的编码文本所包含的信息,并引入了attention机制,能够在数据传输过程中对文本信息进行选择性传递,提高模型对于文本关键信息的能力,降低重要信息在传递过程中丢失的可能。(3)在编码阶段,传统的seq2seq仅进行一次针对语义信息的编码,而本文所提出的模型多进行一次针对语义结构的编码,使聚类了句子语法结构的编码向量能够传递到解码阶段,使模型能够针对不同的语法结构,选择不同的提问词,提出更加符合人类思维方式的问题。实验证明加入了问题模式选择的问句生成模型在人工评估上,取得了比未进行问题选择的模型更好的分数。最后与传统的问句生成模型进行对比试验得出结论,本文设计的问句生成模型生成了更好的问题,在BLEU评估分数上取得了一定的提升,人工评估阶段也有着更好的表现。
其他文献
学位
为推动金融机构资产管理业务规范化发展,促进资产管理行业标准相统一,高效规避金融风险,助力于实体经济稳步迈进,2018年,经中央全面深化改革委员会审议通过,央行、银保监会、证监会、国家外汇管理局等四部门于4月27日发布了《关于规范金融机构资产管理业务的指导意见》(银发[2018]106号文,以下简称《资管新规》),本次资管新规的发布,其核心思想就是通过打破刚性兑付来实现金融去杠杆进而实现实体经济去杠
学位
学位
随着我国交通运输行业的迅猛发展,桥梁用钢板的需求量必然会大幅增长,在这种背景下,高等级、高要求桥梁钢的使用成为必然选择。为了顺应桥梁行业的发展要求,本文通过参考现有的标准,设计出了两种不同成分的耐候桥梁钢,并在此基础上进行试制。对其显微组织、力学性能和耐候性能方面进行了研究。本文主要研究结果如下:(1)研究了耐候桥梁钢在连续冷却过程中相变行为的影响,为试验钢获得所需组织提供合理的冷却制度。结果表明
政治协商孕育于中国历史文化传统中,有着鲜明的中国特色。在历史传统中,我们就注重协商议事,注重民主公议。在《尚书·周官》中周王就对群臣提出了议事的要求。同时,中国古代还有着丰富的协商议事的形式,如廷议,谏议,清议,乡议等。协商式政治传具有着独立于行政体系之外的倾向和制度化的特点,与今天的政治协商制度有着诸多相似,在古代“和合”等文化思想的影响下一脉相承。中国特色政治协商在对传统优秀政治文化继承的基础
突发公共卫生事件,尤其是突发传染病性公共卫生事件,是我国应急管理体系中需要重点防范的一类应急事件。突发公共卫生事件的应急处置,是突发公共卫生事件全过程中最重要的环节之一。现如今,在人员跨境流动、贸易跨境往来频繁的全球化背景下,在面对突发传染病性公共卫生事件的应急处置时,稍有不慎不仅会影响我国社会公共安全,也会对社会经济产生一定的影响,进而引发一系列的连锁反应,造成人民群众严重的生命财产损失。突发公
如今,每天都有大量新的恶意软件涌现,利用自动化分析系统进行恶意软件动态分析比以往更为需要。自动化分析通常在沙箱环境中运行样本,以防止损坏或感染分析环境,同时可获得更高权限的观察。然而恶意软件开发者总是通过隐藏恶意软件的真实行为来来逃避沙箱检测,各种逃逸技术层出不穷。因此,反沙箱对抗技术的研究价值越来越高。首先,基于动态分析的反沙箱对抗技术利用Intel PT(Intel Processor Tra
长期以来,各种环境下的人体行为识别都具是有吸引力和现实意义的领域。比如,对人体在日常工作中行为产生的各种信号的有效监测和对身体健康状态的检测相互关联。心冲击图(ballistocardiographic,BCG)信号是一种反映人体体表随心室收缩产生的变化与振动的信号,能够提供信息以分析人体的机能和活动状态。BCG信号同时还含有多种干扰源,这些干扰源通常来自人体和外界的各种物理活动,因此也可用于检测
图数据库用于存储和查询图数据,凭借自身对关系的高效的处理能力,在金融行业、社交网络、知识图谱以及网络监控等领域有广泛的应用。在大数据时代下,数据的高价值更多地体现在其背后隐藏的信息。图数据库系统GDM希望为用户提供有关图数据的全方位的解决方案,而它缺乏对图数据的分析处理能力。目前,用于对图数据分析处理的图计算系统是单独存在的,计算前后的数据迁移为用户带来不便。因此设计并实现一个图计算系统,能够对接