【摘 要】
:
传统的问答系统中,大多数是基于规则或字面相似度在知识库中进行检索的,其问答系统可以快速检索匹配的问句,缺点是匹配的准确率并不高。而基于深度学习的问答系统的准确率虽然很高,但其缺点是匹配时花费的运算的时间较多,而且训练模型也需要依赖很多优质的数据资源。因此本文提出了一个以深度学习匹配算法为主的语义分析智能问答系统,该问答系统是一种具有上下文理解能力的基于信息检索的深度向量匹配和深度学习排序的问答系统
【出 处】
:
中国科学院大学(中国科学院沈阳计算技术研究所)
论文部分内容阅读
传统的问答系统中,大多数是基于规则或字面相似度在知识库中进行检索的,其问答系统可以快速检索匹配的问句,缺点是匹配的准确率并不高。而基于深度学习的问答系统的准确率虽然很高,但其缺点是匹配时花费的运算的时间较多,而且训练模型也需要依赖很多优质的数据资源。因此本文提出了一个以深度学习匹配算法为主的语义分析智能问答系统,该问答系统是一种具有上下文理解能力的基于信息检索的深度向量匹配和深度学习排序的问答系统,该系统采用两段式排序算法,在第一阶段使用简单的检索模型,检索出多个相关的问题,以减少训练所依赖的数据以及召回所用的时长,第二阶段采用排序算法在检索出的多个问题的基础上使用预训练模型进行再次的精排,从而取得最好的答案,还模型需要的数据资源少并且在准确率上优于大多数模型。主要由检索模块,排序模块两大部分组成。首先对用户的提问进行分词、实体识别以及长难句压缩的处理,该模块主要使用AC自动机进行关键词的提取。其次检索模块根据预处理好的问句,通过字面检索、语义检索和知识图谱查询多个相似答案所在知识库中的位置并快速筛选出得分靠前的句子,该模块主要使用了基于词袋的BM25统计模型和基于深度向量匹配的word2vec语言模型。最后排序模块根据检索到的结果进行归并,通过实体对齐策略过滤一些不合理的答案,使用重排技术对过滤的答案进行重新排序得到最合适的答案,该模块主要使用了基于关键词的实体对齐方法以及基于Pointwise的Learningto Rank重排模型。其中知识库和知识图谱的优化和补充是通过知识挖掘、数据分析、信息提取、阅读理解等方法在资讯事件、对话日志、条款知识等文本中获得。本课题实现了基于文本匹配的智能学涯测评问答系统,分别解决了字面匹配、深度向量匹配和带有逻辑推理的知识图谱文本匹配系统,通过三者的进一步融合结合,使得答案更为精准、全面,解决了学涯测评领域自然语言问答处理技术的实际应用问题。
其他文献
<正>从福建省上杭县走出来的紫金矿业集团股份有限公司(以下简称紫金矿业),是中国矿业快速崛起的见证者和建设者。在上杭县这片有着深厚革命基础的热土上,曾经的成功革命实践和伟大经济建设的生动故事,激励着这里的创业者们不断开拓进取、勇于创新变革。乘着改革开放的浩荡春风,在得天独厚的“红色基因”指引下,近30年间,由30多名员工、350万元资金的福建省上杭县矿产公司起步,如今,紫金矿业已经成为一颗冉冉升起
<正>【本刊讯】1月5日至6日,西部矿业集团有限公司(以下简称“西部矿业集团”)以“线上+线下”方式召开2023年工作会议暨八届二次职代会,全面总结2022年改革发展新成效,立足当前发展形势明确2023年各项目标任务,提出坚持一个统领、把握一个目标、守好两条底线、推进五个全面提升的“1125”工作思路,不断朝着建设“全省领先、国内一流、国际知名”企业集团目标迈进,以高质量发展新成效为现代化新青海建
早期的趣缘群体主要基于同一时空来维系趣缘关系并开展交流活动,而互联网从某种程度上而言突破了时空的限制,建构了一个全新的情感交流互动场所,使得具有相同兴趣爱好的人群聚合在同一网络空间进行分享交流活动。从千禧年代的网络虚拟社区、网络论坛,到各种贴吧、群聊,网络趣缘群体的交流空间和交流方式也在不断发生改变。足球球衣收藏交流群的主要成员和互动参与者都是热衷于收藏足球球衣的足球迷,对于足球球衣的爱好让这个群
乒乓球混双首次在2020年东京奥运会被列为新增项目,并在2021年被归类到奥运会比赛乒乓球大项里。乒乓球混双项目丰富了乒乓球比赛的种类,提高了乒乓球运动的对抗性、观赏性、竞争性和不可预测性,让人们对乒乓球运动更加喜爱,为乒乓球运动的发展提供了极大的推动作用。在东京奥运会乒乓球混双项目上,中国队憾失金牌,同时给中国队敲响了警钟。因此,对世界优秀的乒乓球混双组合进行研究十分有必要。总结优秀混双组合的共
<正>近年来,西部矿业集团以高质量党建引领高质量发展,为改革注入“根”和“魂”,为发展疏通“经”和“脉”,生产经营效益取得自成立以来最好成绩。全国国有企业党的建设工作会议以来的实践证明,高质量党建是高质量发展的引领和保证,没有高质量的党建,高质量的发展就没有依托。近年来,西部矿业集团有限公司(以下简称“西部矿业集团”)党委深入贯彻落实青海省委省政府决策部署,旗帜鲜明讲政治,理直气壮抓党建,推动党的
第32届奥运会男子篮球比赛充分展示了世界篮坛技战术的变化和发展,世界篮球运动竞技发展水平不均衡,技战术风格也在不断的改变与创新,以欧美为代表的篮球队伍仍处于世界领先水平。中国男篮在世界杯小组赛与奥运会落选赛的接连失利让人痛心,此次无缘奥运会不仅反映中国男篮与欧美男篮之间的差距,也反映出中国男篮正在面临前所未有的挑战。本研究对第32届奥运会男子篮球比赛的掩护特征进行分析,把握掩护整体特征的基础上,通
中国共产党历史自信是习近平总书记在开启全面建设社会主义现代化国家新征程之际提出的崭新命题。历史自信源于党的百年成就、世界贡献、奋斗精神、历史态度以及民族自信,具有清晰的发生学逻辑。作为一种精神力量,它不仅能够激励党在革命性锻造中建设成为长期执政的马克思主义政党,而且具有提升中国特色社会主义“四个自信”、增强中国人民实现民族复兴的志气、骨气与底气的外溢功能。在新时代新征程上坚定历史自信,应当接续发扬
三人制篮球比赛是传统五人制篮球比赛衍生出来的新兴运动,在第32届奥运会正式成为比赛项目。我国三人制篮球男女队在2019年篮球世锦赛中获得第一名,并且女篮在第32届奥运会中获得了铜牌,取得了历史性突破,展现了优异的竞技能力。三人制篮球在我国被关注和被重视的程度也将随之提高,在为成绩欢呼的同时,也要在未来为中国队与世界强队的竞争中做好准备。本研究将对第32届奥运会女子三人制篮球中国队与其对手的进攻能力
将长短时记忆(LSTM)神经网络嵌套至编码-解码(ED)结构,构建了LSTM-ED深度学习模型,采用贝叶斯概率预报处理器量化洪水预报不确定性,提出了一种三峡入库洪水概率预报业务方法,并讨论了降雨预报对洪水概率预报性能的影响。选用向家坝—三峡坝址区间流域2010—2021年汛期6 h降水径流资料序列训练和检验模型,开展了1~7 d预见期入库洪水预报。结果表明:LSTM-ED模型的模拟预报精度优于LS
以永宁江流域作为试点,构建数字孪生流域,建设具有“四预”功能的“2+N”业务应用体系,综合保障区域防洪安全。考虑到流域内地势起伏大、用地类型复杂、横跨多个行政区块等客观原因,为提高预报精度,基于Mike系列模型,建立永宁江洪水预报模型。采用2013年“菲特”、2015年“苏迪罗”和2019年“利奇马”等台风洪水作为计算场次,根据2013—2019年水文资料选取5场洪水进行率定,结果表明各站模拟与实