问答系统中的答案源搜索与选择方法研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:subae
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
问答(Question Answering,简称QA)是自然语言处理领域中一个非常热门的研究方向。问答系统中涉及到的技术颇多,其中最主要的部分便是答案源的搜索与选择。答案源的搜索旨在从大规模数据集中筛选可能包含问句答案的文本集合,一般使用传统的无监督方法。答案源选择则是在已有候选文本集合下,通过深度学习方法选择或抽取能够回答用户问题的答案。本文面向问答系统中的答案源搜索和选择任务,分别做了如下三个部分研究:(1)基于密度优先策略的答案源搜索方法研究现有的答案源搜索方法通常都是基于词共现,未曾考虑问题关键词分布的情况,本文发现存在关键词多且密的片段成为优质候选答案的可能性较高,基于此我们提出了基于密度优先策略的答案源搜索方法,其求解原理是利用问题关键词在文本中的最大分布密度来衡量问题和文档的相关度,其设计动因来源于实际数据的观测结果,即在正确答案源中,问题关键词的分布往往较为密集。同样,在该研究中我们也对比了传统方法和深度学习方法在不同句子粒度上的性能表现,为在实际运用中二者之间的权衡给予了一定的参考标准。(2)基于多粒度交互融合的答案源选择方法研究目前,大量的深度学习方法已被成功运用于答案源选择任务中,其中,基于交互的模型取得了显著成果。基于交互的方法核心问题在于交互矩阵(匹配矩阵)的构建,现有答案源选择方法在构建交互矩阵时仅考虑一种类型的语言特征,即单词级别或句子语义级别的特征。相比之下,本文发现多种类型的语言特征的共同使用有助于增强局部相关性表示。因此,本文提出了一种多粒度交互融合方法,该方法同时获取相同粒度以及不同粒度的语言单元之间的交互信息。在此基础上,本文融合了不同的交互信息,并按照先前的工作将卷积神经网络应用于交互矩阵,以解码全局问题与答案源的相关性。(3)问答系统原型实现结合前文答案源搜索和选择方法的研究,本文使用中文维基百科数据,通过储存与检索架构ES,基于前端Vue、Bootstrap和后端Tornado框架搭建了检索式的问答系统原型。用户输入相关问题,系统便可结合本文提出的密度优先策略和多粒度交互融合的方法,从中文维基百科数据中搜索与选择,并最终返回最有可能包含用户问题答案的句子或段落。本文从整体到局部,针对问答系统中的答案源搜索和选择任务中发现的现象和问题,提出了相应的解决思路和实现策略,两者在各自任务的实验上均达到了前沿的性能。同时本文由局部回归整体,整合以上两种算法,基于中文的百科数据构建了检索式的问答系统原型。
其他文献
当前,在医疗数据信息的存储和管理领域,存在着数据存储格式不一致、患者隐私风险大等严重的现实问题。这些问题极大地制约了医疗卫生产业的发展。此外,在传统的医疗系统的数
随着航天事业的发展和航天活动的日益频繁,因故障而失效的航天器数目日益增多。废弃的故障航天器成为太空垃圾,不仅造成经济与时间上的浪费,也可能对其他航天器的正常运行产
随着能源危机和环境污染的问题日益突出,研究和发展微电网和冷热电联供技术是目前最行之有效的措施。微电网利用分布式能源向用户供能,与传统的供电方式相比,供能距离大大缩短,线路损耗几乎可以降为零,解决了形式多样的分布式能源灵活并网的问题。在微电网中引入联供技术,可以利用分布式电源发电后的低品质热能进行供热或制冷,实现能源的梯级利用,大大地提高了综合能源利用率。在微网供电的能量损耗中,建筑耗能通常占绝大部
“加快建设体育强国、弘扬中华体育精神、坚定文化自信”是习近平总书记在党的十九大报告中为中国竞技体育未来发展所制定的蓝图。而推动中国传统体育项目入奥,充分利用奥运
现阶段采煤工作机械化程度较高,超长工作面的出现对煤矿的产量有很大的提升,但随之而来的工作面高温热害问题也越来越严重。由于工作面加长,工作面上布置的机械设备增多,围岩散热更加严重,工作面端头温差较大,并且工作面内部热量较难排出,高温热害尤为严重。空气冷却器(简称为空冷器)作为尾端制冷的关键设备,其类型、布置方式及工作参数等对降温系统在具体工况下的效果影响显著。由于工作面上空间的限制,布置在工作面上的
近年来,基于视觉的位姿估计受到了越来越多的关注,其中大部分工作都是针对可见光波段的图像进行的。然而可见光相机只能在良好的光照条件下才能得到丰富的纹理并进行良好的自
随着信息技术的迅速发展,基于直播情景的在线培训成为常态,且随着信息处理技术及传感技术的高速发展,学习者多方面信息的获取得到了支持,数据也由初期的单一模态数据拓展为基于可穿戴设备的多模态数据。已有研究者认为自我调节是在线学习者学习成功、教师教学成功的关键。本研究将学习者画像纳入中小学教师在线培训领域的研究范畴,以促进教师进行自我调节为切入点,在中小学教师在线培训及多模态学习者画像现状分析的基础上,进
认知无线电(Cognitive Radio,CR)是能有效缓解频谱资源稀缺问题的主要技术手段,而频谱感知是组建整个认知无线电系统首要解决的问题。频谱感知能够实时、准确地感知频谱占用
目前我们国内的集成电路事业正在取得较大的发展,模数转换器作为其中的一个非常重要的方向,它的性能往往决定着整个系统信号处理的准确性。由于大自然中的温度、力、声、光、
行人再识别是计算机视觉领域中既具有挑战性又极富研究价值的课题,需要在多个摄像机系统中匹配具有相同身份的行人图像。近年来,人脸验证技术的愈发成熟,在构建“智慧城市”