基于非结构化文档的开放域自动问答系统技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:valgrind2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动问答系统能够根据用户输入的自然语言问题,直接返回精确的答案。本文的研究方向是基于非结构化文档的开放域自动问答系统,其特点是背后的数据源是非结构化的文档库,面向的问题是通用问题,并不局限于某个领域。典型的基于非结构化文档的开放域自动问答系统一般由问题处理模块、文档处理模块和答案处理模块三个部分组成,其主要存在两个问题,第一是文档处理模块返回的段落候选集规模过大导致答案处理模块准确率降低。第二是基于规则的答案抽取过于繁琐,灵活性差。针对第一个问题,本文使用句子筛选和句子排序模块将段落候选集缩减为单个的答案句子。针对第二个问题,本文使用了端到端的深度神经网络模型代替传统的基于规则的答案抽取算法。针对句子筛选模块,本文改进了一种计算文档相似度的算法Word Mover’s Distance(WMD),并提出了一种将BM25和WMD结合的混合模型。本文分别进行了文档分类和文本排序实验。实验结果表明,改进后的WMD算法和混合模型比其他基准算法有更好的效果。针对句子排序模块,本文设计了五种特征来衡量问句和候选答案句子之间的相关性,并以此相关性得分对候选答案句子进行排序。这些特征包含了不同的级别。该模型称为Multiple Level Feature Rank(MLFR)模型。本文测试并对比了若干基于深度神经网络的句子排序模型。实验结果表明,MLFR模型有更好的排序效果。最后,本文引入了一个端到端的深度神经网络模型用于答案抽取,并将此模型与前面的句子筛选和句子排序模块组合在一起,设计实验进行了整体的性能评估。本文对典型的基于非结构化文档的开放域自动问答系统中存在的问题提出了相应的解决方案,改进了计算文档相似度的相关算法,提出了一种基于多级特征的句子排序模型(MLFR),同时引入了一种端到端深度神经网络来进行答案抽取。实验结果表明,本文的解决方案是行之有效的。
其他文献
<正> 七十年前,一九一○年十一月七日六时零五分,俄国文坛上一颗巨星殒落了!伟大的批判现实主义作家列夫·托尔斯泰在阿斯塔波沃车站站长的寒冷小屋里与世长辞。这颗反射着俄
安康市岚皋县佐龙中学是"安康市文明校园"、"岚皋县教育教学质量优秀学校"、"岚皋县综合治理平安校园"、"优秀团组织"和"镇先进党支部"。现任学校校长张赟,是位优秀的中共党员、高级教
在建设项目施工过程中,工程合同索赔现象屡见不鲜。本文针对这一现象,向读者介绍了工程索赔的概念、索赔的分类、引起承包商索赔常见的原因、索赔的依据、索赔的程序、索赔的
近年来日照钢铁生产焊丝钢氧含量控制不稳定,脱氧较轻时夹杂物含量高,脱氧过重时浇注发生絮流,严重影响钢材质量和生产连续性。在炼钢过程钢中夹杂物通过造渣吸收去除,ER70S-
影视艺术是现代广告中的重要类别,影视广告创作及表现,由多种艺术表现形式和手法构建而成,通过媒介传播与受众进行情感互动或理性沟通。本文以广告叙事学为理论支撑,从艺术赏
机械焊接结构主要是指用焊接的方法所制造的金属结构,这些焊接结构的种类比较繁多,其中种类的分法也有很多,比如说机械设计中一些半成品通过焊接技术成为一个整体的结构,这些
碱性喷射促凝剂能使水泥浆的凝固时间大大减少。DCA(差示量热分析)结果显示,加入C3A和C3S都会使反应发生变化。ESEM(环境扫描电镜)照片也证明了,铝酸钙水合物的形成是水泥浆
将180例小儿病毒性腹泻患者随机分成炎琥宁组、蒙脱石散组和联合用药组各60例。比较3组的止泻时间、疗前疗后大便次数及住院时间等。治疗1个疗程后,联合用药组患儿的总有效率