基于专业术语挖掘与孪生神经网络的智能问答系统

来源 :浙江工业大学 | 被引量 : 1次 | 上传用户:jili7315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着用户信息获取要求的提高,传统的搜索引擎已经越来越难以满足用户的需求。虽然搜索引擎可以返回给用户相关知识,但用户仍需要二次提取。为此研究人员提出了智能问答系统,它能够为用户提供一个精准的答案。根据答案的类型不同,将智能问答系统分为事实型和非事实型两种。事实型问答系统通常以一个实体或者概念作为答案,非事实型问答系统通常是以一个句子或者段落作为答案。它能够对问题详细的解释说明,所以常应用于特定领域中,本文就特定领域非事实型问答系统展开研究。非事实型问答系统主要从问答数据库中获取答案来回答用户输入的问题。目前问答系统多是基于先进的神经网络模型设计完成,借助强大的语义模型来选取合适的答案来返回给用户。但是仍然存在问题,神经网络模型是平等的对待学习到的语义信息,如专业术语与普通词是同等重要。这无法体现出领域知识对问答系统的重要性,所以现有的非类事实问答系统在处理特定领域的问题仍具有一定的难度。针对上述问题,本文着重于挖掘特定领域内信息,结合信息检索技术和深度神经网络,设计了一种针对特定领域的非事实型问答系统。然后基于RASA开源框架实现了特定领域智能问答助手。本文主要展开以下工作:第一,特定领域的术语挖掘。在特定领域中专业术语通常是由几个普通词语组成,由于中文语义的复杂性和分词工具限制,这对专业术语提取的研究造成许多困难。针对这个问题,本文提出了一种特定领域的术语挖掘方法,从特定领域的文档中提取专业术语,专业术语可以用作领域知识的重要来源。首先,使用频繁词挖掘算法提取出候选频繁词集;然后,根据术语的词频词性特征设计相应的过滤器,对候选频繁词集进行过滤;最后,在web知识库上进行验证后构建专业术语库。第二,目前多数问答系统在开放领域拥有不错的表现,但是在特定领域表现不好。其主要原因在于:一个是领域知识缺乏;另一个是语义模型平等对待领域知识与普通知识,难以突出领域知识的重要性。因此,本文设计特定领域非事实型问答系统,主要包括三个部分:术语挖掘模块提取专业术语作为领域知识的补充;语义匹配模块则是基于孪生神经网络离线训练语义句子匹配模型;答案检索模块通过查询步骤和排名步骤实时处理用户的查询问题。最后,本文在两个真实数据集上对该系统进行评估。实验结果证明,本文设计的问答系统的有效性。
其他文献
学位
DMF(N-N二甲基甲酰胺)和大多数化工原料能够以任意比例互溶,是化工生产过程中的重要溶剂。近年来,随着人们环保意识的提高,越来越多的企业开始对DMF废液进行回收处理,这不仅
图像超分辨率重建是一种通过算法把低分辨率图像放大到高分辨率图像的技术。该技术不仅可以提高图像的视觉效果、满足人们对高清画质的需求,而且有利于后期的图像处理任务。
农地流转作为土地制度改革的核心,具有降低耕地细碎化、改善经营规模、促进非农就业、保障国家粮食安全、改善农户家庭化流动等诸多潜在收益,是传统农业向现代农业转变的必经
第一部分 超声引导下聚桂醇硬化治疗子宫肌瘤的安全性评价目的:研究超声引导下聚桂醇硬化治疗不同类型、不同位置、不同大小子宫肌瘤的安全性。方法:2014年1月至2017年6月,在
随着人工智能的热潮席卷全球,机器人的发展受到广泛关注。室内移动机器人作为机器人研究领域的重要分支,吸引了诸多学者的注目,其中地图构建与路径规划是室内移动机器人导航研究的热点和难点。目前,已知环境下的机器人导航技术已相对成熟,但未知环境下的机器人导航还有些关键问题亟待进一步研究。本文首先研究了机器人在室内环境下的定位问题,采用基于信标的UWB定位技术为机器人提供较为准确的位姿估计;然后研究环境地图未
学位
频谱感知技术是认知无线电技术(Cognitive Radio,CR)的关键,用于探测授权频谱中的可用信道。主用户(Primary User,PU)活动状态的高效检测对于有限的频谱资源利用具有重要意义。协作频谱感知(Cooperative Spectrum Sensing,CSS)可以有效地解决单节点感知不可靠的问题,但另一方面也会增加网络能耗。与此同时,当次级用户(Secondary User,S
近年来,智能机器人配备RGB-D相机作为其视觉感知系统已经成为一种新的趋势。物体识别作为其视觉系统的重要功能之一,长期以来一直是研究人员关注的难点。其主要原因在于实际环境(如桌面、货架物体堆放等)中的众多不确定性:其中单一视角下,由于堆放造成的物体间相互遮挡、表面信息丢失等问题直接影响了识别和位姿计算的正确率和精确度。针对这一局限性,前人利用机器人的可移动能力提出了主动物体识别的概念,即通过增加视
移动互联网技术的飞速发展,社交网络平台日益流行,新浪微博作为我国目前最流行的社交网络平台之一,其信息的时效性与爆发式的传播速度,吸引了大批我国的网民,包含巨大的商业价值。传统广告推荐模式的效果低下且易被人厌烦,随着基于用户兴趣的广告精准投放模式愈发被重视,新浪微博中巨大的用户数量与用户兴趣也愈发具有研究价值,而如何精确的描述与预测用户的兴趣,有着重要的研究意义。当前多数的研究是单一的从用户微博信息