面向开放领域的知识图谱问答系统研究

来源 :华中科技大学 | 被引量 : 1次 | 上传用户:jiu1111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,已有搜索引擎借助大数据和人工智能等技术,能够根据人们的搜索需求在互联网海量数据中快速定位到所需信息,以满足人们日常信息检索需求。然而,搜索引擎返回结果通常是与查询相关的文档链接,无法根据查询问题直接返回答案,尤其是面对知识型问题时。为此,本文在已有知识图谱、自然语言处理和深度学习等技术的基础之上,研究开放领域知识图谱问答系统的构建方法,目的是使系统能够根据用户提出的百科类知识问题,直接返回简短明确的答案。本文主要贡献如下:1、提出一种基于指称识别和实体链接的实体预测模型,用于识别问句中的候选实体。针对指称识别,提出BERT-Bi LSTM-CRF(BBC)序列标注和Elastic Search(ES)精确检索方法。BBC序列标注是通过BERT、双向长短期记忆网络(Bi LSTM)学习问句的隐藏语义特征,利用条件随机场(CRF)预测问句的标签序列,并从中识别得到候选指称。ES精确检索是将问句进行分词,将筛选后的词语在ES数据库中精确匹配到对应的候选指称。针对实体链接,提出特征计算和特征排序方法,用于将候选指称链接到知识图谱上,得到与之相关的候选实体。特征计算是学习问句与实体之间的语义特征和统计特征,语义特征包括问句与实体信息间的语义相似度,统计特征包括指称重要度、实体流行度和字符匹配度。特征排序是利用逻辑回归(LR)算法对实体特征建模,排序后得到候选实体。实验结果表明,指称识别综合召回率为0.961,实体链接Top-5、Top-3、Top-1预测准确率分别为0.846、0.834、0.815,为兼顾考虑问答准确率和计算效率,最终选择Top-3预测实体作为问句的候选实体。2、提出一种基于语义相似度和表示学习的关系预测模型,用于识别问句中的候选关系。语义相似度是利用多级排序(Word2Vec、BERT)算法计算问句与关系间的语义相似度,通过LR排序后得到候选关系。表示学习是利用BERT问句编码和Rotat E知识图谱编码模型来学习问句和关系间的图谱信息,通过评分函数排序后得到候选关系。实验结果表明,语义相似度模型要优于表示学习模型,Top-1关系预测准确率分别为0.792和0.774,因此最终选择语义相似度模型来预测问句的候选关系。
其他文献
随着互联网技术的发展和人工智能技术的演进,基于搜索引擎的问答技术难以满足人们日益增长的需要。人们需要在繁杂冗长的搜索结果中寻找自己需要的信息。在“新型冠状病毒”疫情的影响下,怎样准确简单地了解病情信息就成为了亟待解决的课题。本文实现的临床医学智能问答系统可以理解用户提问,精确识别用户意图,在知识库中寻找答案,将答案准确简洁地返回给用户。本文通过爬取互联网中的医学知识网页资源,并基于规则的方式对提取
学位
为了提升数据库的性能,对数据进行分片操作成为了非常必要的手段。在进行分片操作时,需要注意遵守分片的完整性、不相交性和可重构性原则。分片方式主要有三种,水平分片、垂直分片和混合分片,每种分片方式都有各自适合的场景,这里主要讨论垂直分片。垂直分片在实际应用中,往往可以用来划分出热点数据,从而提升数据库性能,降低数据访问成本。但是目前的垂直分片往往没有考虑到数据之间的语义关系,若是在分片的时候考虑到数据
学位
科学研究和工程实践中广泛存在着具有多约束多变量的多目标优化问题。基于进化理论的多目标进化算法不需要问题的先验信息,具有良好的并行性和鲁棒性,在求解多目标优化问题上表现优异。子代解的产生是多目标进化算法的重要组成部分,显著影响算法的性能。因此,研究多目标进化算法子代解的产生方法具有重要意义。在多目标进化算法中,子代解通过父代选择和个体重组两个环节产生。改进多目标进化算法随机选择父代的方式,有助于避免
学位
移动互联网发展至今,新闻资讯产生速度愈加快速。为帮助用户抵挡信息过载,互联网新闻提供商研发各种成熟的新闻推荐算法,推送用户感兴趣的资讯。然而几乎所有的算法都需要以牺牲用户隐私为代价去实现精准的消息推送。随着各国政府和民众对隐私保护的愈发重视,各项法规开始限制互联网服务提供商搜集、存储和交易用户的隐私信息。当前的新闻推荐系统的隐私保护方法主要有三类:匿名方法、随机数据扰动和加密方法。匿名方法主要使用
学位
信用支付业务已经越来越重要的成为我国银行业和金融业的重要业务,随着社会现代化的发展,具有越来越多样的载体形式和产品形态,如何高效精准的进行银行用户信用违约预测成为了极其重要的问题。针对信用支付业务场景,本文基于机器学习方法设计了银行用户信用违约预测方法。研究了多维度用户违约特征构建方法来解决银行用户信用违约预测特征构建不充分问题;建立了基于分位点的归一化方法来解决银行信用违约数据分布不均衡问题;建
学位
目前网络已经与工业生产紧密联合,在数据环境中利用无线网络通信可以极大降低信息资源交互成本。在数控环境中因为条件限制使用了一些脆弱标准化协议,使网络通信安全问题更加严重。数控环境对于通信实时性要求高,使用协议也是工控网络专用协议,传统的审计系统不能满足其安全审计的要求,因此需要一个高效通信审计系统来确保数控网络系统的安全。论文的研究重点在于实现一个效率快,准确性高同时易拓展的无线数控网络通信审计系统
学位
研究基于情感的对话生成模型对于提升人机对话过程中的用户体验具有重要意义。目前,已有研究主要依赖在序列到序列的生成模型中注入情感向量的方式构建基础框架,并衍生出了多种不同情感注入方式的变种模型,例如在模型输入层、输出层引入情感嵌入以注入情感,或者直接引入外部情感词典以鼓励解码过程中更关注情感词等。上述研究解决的重点是给定某一类的情感,让模型根据用户输入语句去生成带有这种情感的回复,其本质上解决了对话
学位
近几年来,随着互联网技术在各个行业迅速的普及和应用,互联网早已成为多媒体信息的新媒介,造成了信息爆炸式的产出。靠人工鉴别价值信息已经变得越来越难以实现,信息自动化抽取技术应运而生。信息自动化抽取技术是自动化的从文本、图片或者视频中抽取结构化信息的技术,而事件抽取一直以来都是信息抽取的重要研究方向。本课题主要目标是对短文本进行事件抽取,论文以财经新闻为应用场景。在词嵌入方法、特征提取、语句分割粒度等
学位
信息抽取是自然语言处理领域的一个重要研究分支,而命名实体识别则是信息抽取技术中的关键核心问题,其作为机器翻译、句法分析等众多下游任务的基础工具,对自然语言处理技术走向实用化具有重要意义。近年来,随着深度学习技术的快速发展,基于深度学习的命名实体识别模型层出不穷,虽然命名实体识别性能不断被提升,但上述方法也存在诸多不足:(1)当前多数方法采用双向长短期记忆网络(Bi-LSTM)作为上下文编码器,但基
学位
随着监控视频数据的指数增加和视频监控技术的迅速发展,如何有效的提取视频中的深层信息逐渐受关注,对视频信息的挖掘能够有效的降低违法犯罪行为数量并提高社会的治理水平,对构建智慧城市、保障城市安全、推动数字经济的发展都有较大的帮助。以计算机视觉为中心,通过对目标检测、多目标追踪、行人重识别等技术的研究实现了跨相机场景下在线的多目标追踪,并引入了行人检索库来对追踪过程中的特征进行动态管理,以提高整体追踪的
学位