面向开放域的自动问答系统的设计与实现

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:wanderooy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网数据的快速增长,传统的基于关键字的信息检索方法存在着准确性低、信息冗余量大、需要用户自己筛选大量文档进等缺点,传统的检索方式已经很难满足用户在信息检索中的需求。随着自动问答系统的出现,计算机可以直接查询用户输入的自然语言问题,理解和分析用户输入的自然语言句子,然后返回简洁准确的答案,大大提高了用户的查询效率。因此,自动问答系统已成为自然语言处理和信息检索领域的共同研究方向和核心任务。本文主要使用现有的研究技术成果,在自动问答系统的搭建过程中,对系统搭建、问句分析以及候选答案评分模型三个方面进行研究和实现,研究成果如下:1、使用Java语言和Maven环境构建问答系统。首先是数据库的构建,数据库建立两张表格,一张为证据表用于存储证据片段,一张为问题表用于存储问题便于出现重复时直接提取答案;数据库内数据主要是在用户在使用系统时匹配到的<问句,答案句>对,实时存储于数据库中,实时更新。2、根据问句确定问题类别。本系统预先定义几类问题的匹配模式,与问句进行模式匹配,目前可识别的问题类有人名、地名、机构名等。3、使用候选答案评分模型,对候选答案进行评价。在候选答案评分模型中,有八种基本的评价方法:基于词频的评价模型、基于词距的评价模型、基于最短词距的评价模型、基于文本对齐的评价模型、基于宽松文本对齐的评价模型、基于回带文本对齐的评价模型和基于热词的评价模型、综合评价模型。针对以上方法本文融入深度学习方法进行改善,采用分步抽取答案的方法,先从答案片段中抽取包含答案的句子,再从提取到的答案句中进行最终答案的抽取。在抽取答案句过程中,采用Bi-LSTM和Max pooling构造了答案句抽取模型。实验结果表明,在答案句的抽取中,本模型取得了可观的效果,MRR指数达到了0.75。
其他文献
【正】钱钟书先生的长篇小说《围城》是中国现代文学史上一部艺术杰作。它真实地描写了抗日战争时期旧中国一部分上层知识分子的琐细生活,淋漓尽致地暴露了他们的空疏、虚伪
<正>目前我国的国有企业改革已进入攻坚阶段,国有企业改革能否顺利推进,关键在于找出国有企业改革存在的难点,并着重解决国有企业改革中遇到的现实难题,这对于发展改革成果,
随着义务教育改革的深入与不断发展,初中化学实验也在不断地改进、创新与完善。在教育教学实践与分析中发现,按照教材方法,铁丝在氧气中燃烧实验中的铁丝很难引燃;倾倒二氧化
利用电喷雾串联质谱(ESI—MS^n)研究从云南产通关藤(Marsdenia tenacissirna(Roxb.)Wight et Arn)中分离纯化得到的19种甾体化合物的裂解规律,分析了它们从分子离子出发的多级质谱的
分析了硬齿面齿轮疲劳失效的种类和形成原因,提出了对重要齿轮采用真空炉渗碳淬火、采用硬喷丸及选用合适的润滑油等解决其失效的办法。
【正】 孔子名丘,字仲尼,公元前五五一年生于鲁国,卒于公元前四七九年,是我国儒家学派的创始人。孔子不仅在政治、文化、教育等方面对后世有着深远的影响,而且他的经济思想对
期刊
随着药学科学技术的发展和我国医药卫生体制改革的推进,新形势下医院药学的发展重点发生了转变。医德建设、传统工作的转变、临床药学与药学监护的建立、学科建设、信息技术
通过FTIR、DSC等方法,研究了在海洋大气环境户外自然曝晒老化和紫外线人工加速老化条件下,纯聚脲重防腐涂层(简称Qtech-412涂层)的力学性能、光泽度和分子结构变化。结果表明
<正>在全世界范围内,消防队员都是最危险的职业之一。美国又是消防队员伤亡率比较高的国家。通过美国数10年来消防队员伤亡数据的分析与解读,可以充分认识该职业的风险分布和
对蒙古文文献在国外的收藏情况作了简要介绍,提出了完成国外蒙古文文献总目录及国外蒙古文文献信息共享系统保护的建议。