基于知识库问答的未登录词研究

来源 :武汉纺织大学 | 被引量 : 0次 | 上传用户:chongqingyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能的高速发展,传统的搜索引擎已经越来越难以满足人们的搜索要求。相比搜索引擎依靠的关键字匹配,智能问答系统融合了自然语言知识和应用,可以更好地满足用户的搜索需求。在众多问答系统中,知识库问答具有逻辑性强等优势,是目前最热门的智能问答系统。在目前的知识库问答系统中,不包含在词库中的单词被称为未登录词,因系统无法获取未登录词的语义信息所以通常使用随机向量表示,因此当系统中的未登录词达到一定比例时就会产生信息缺失的问题,会严重影响问答系统的准确率。本论文针对知识库问答系统中的未登录词问题,提出一种可以改善问答系统中未登录词不良影响的方法,实现了对问答系统中的未登录词的检测与处理,涉及的关键技术包括词向量、动态规划以及流形排序等,主要工作与贡献如下:(1)提出一种基于动态规划算法的分词方法。首先利用维基百科语料,基于奇夫定律构建代价词典,然后结合动态规划算法,实现对输入的单词进行分词。该方法降低了知识库问答系统中百分之九十以上的未登录词数量,有效缓解了信息缺失问题。(2)提出一种基于流形排序的排序方法,在多个未登录词子词中选取重要度最高的子词,为其找到替代表达。首先通过流形排序算法对多个未登录词子词进行迭代,获得一个重要度排序,然后确定使用重要度最高的子词向量来表达该未登录词。该方法使得最优子词的向量与其原向量的相似度相当高,为未登录词找到接近最佳的替代表达字词。(3)将所提出的未登录词处理方法融合到Bi-LSTM网络模型中,实现了基于知识库freebase的知识库问答系统,展现了相应的实验结果并进行分析。该系统弥补了之前系统中大量未登录词过多导致的信息缺失问题,并通过实验验证了模型对未登录词的改进能力与生成答案的准确性,验证了所提出的问答模型的有效性,特别是在多关系数据集上,得到了7%以上的准确率提升。
其他文献
本文以明治时期汉语教科书《华语跬步》为研究对象,主要采用了图表法、统计分析法、归纳法等方法,对汉语教科书《华语跬步》中的语音、词汇、会话等方面进行研究。先介绍了教科书的基本情况,包括成书背景、版本及编写体例、编写原则,然后对语音方面进行了研究,论述了教科书中四角标圈法的语音标记符号以及编排的官话音谱和官话平仄编,接着对汉语教科书中词汇部分和会话部分的的选编和特点进行研究与分析,从而对明治时期汉语教
多智能体系统的协调跟踪控制研究受到了来自物理、控制、计算机等多领域学者的深入关注,本文以二阶非线性多智能体为研究对象,针对无向拓扑结构下的二阶非线性多智能体系统提出协调跟踪控制方案.对其领航-跟随一致性做了进一步的研究,主要研究内容如下.首先,本文给出了二阶非线性多智能体系统协调跟踪研究领域的研究现状.介绍了图论的知识及Lyapunov稳定性相关理论,为文章其它各章节提供了理论基础.其次,在无向切
CG技术作为一门新兴的技术在不同科技文化领域都有其使用价值,尤其在绘画行业,CG技术可以说开辟了一种全新的适应于时代的绘画艺术发展道路。中国作为一个具有自己本土且相对独立的艺术发展脉络的国家,具有有别于西方艺术世界的审美意趣和艺术市场。CG技术对中国艺术家来说相对陌生,了解和使用CG技术,不仅可以拓宽中国艺术家的审美视野和创作方向,更为他们带来了崭新的有别于传统绘画的艺术风貌与时代气息。但目前,C
随着我国城镇化的发展和城市人口的增加,城市居民的需求尤其是对基本公共服务的需求与日俱增,公共基础设施的建设成为城市发展的必要之义。在这之中,存在一类公共设施,虽然带有公益性质,但同时也具备负外部效应,会对周边居民的身心健康、财产安全带来明显或潜在的威胁和损害,因而遭到附近居民的强烈反对与抗议,这类设施就是邻避设施(NIMBY)。当前,我国邻避事件频发,邻避设施建设依然面临着“一建设就闹”“一闹就停
旋转圆板、圆环板类构件在机械工程、航空航天、土木工程等领域有着广泛的应用。在实际工程中这些构件经常处于磁场、温度场、流场等复杂环境中,它们之间相互耦合下构件运动机理的研究是重要研究课题。当系统存在参数激励时,激励通过系统内参数的周期性改变引起参数振动。小的参数激励在其频率远离系统的固有频率时,如果其频率为系统固有频率的2倍会产生大的响应,出现剧烈的共振现象。本文主要针对磁场中旋转运动导电圆薄板、圆
Minkowski和作为计算几何研究中的一个重要分支,在理论和应用上都有着重要的意义,其研究成果已在机器人学、动态仿真和计算机图形学等许多领域中得到了广泛应用。近年来,多面体Minkowski和计算方法一直受到广泛关注,但在计算效率、适用性、鲁棒性等方面仍存在诸多不足之处。本文在对国内外已有相关方法进行综合分析的基础上,从提高多面体Minkowski和计算方法的高效性、适用性和准确性出发,深入地研
金属玻璃具有优异的力学、磁学、物理和化学性能,自发现以来,一直是材料科学研究的前沿热点。但人们对于金属玻璃结构以及结构与性能之间关系的认识仍非常有限。稀土基金属玻璃中非晶多形态相变的发现,为金属玻璃结构与性能的研究提供了新的途径。但对于金属玻璃中非晶多形态相变与组元间原子和电子结构的关联仍不清楚。本文以稀土基金属玻璃为研究对象,研究了高压下组元原子和电子结构与非晶多形态相变之间的关联。利用原位高压
授权明确性原则是针对立法授权行为适用过程中控制监督的一项基本立法原则,其对于立法体制中起到的规范作用已经得到了无论是立法者还是学者的共识。不过对于研究对象授权立法来讲,其范围界定一直存在着较多争议。如授权立法与职权立法概念之争,法条授权是否属于授权立法表现形式等讨论。本文无意对上述问题进行论证,而是从现行立法规定出发划定本文的研究对象。因我国立法法将授权立法的法定表现形式界定在了授权决定上,以此规
背景 年龄、合并症及系统性炎症已被证实与多种肿瘤预后密切相关。然而,目前关于胃癌(GC)患者年龄合并症指数(ACCI)与系统性炎症免疫指标之间的相关性,及其对患者预后影响的研究尚未见报道。目的探讨ACCI与系统性炎症免疫指标的关系及其对胃癌患者远期预后的影响。方法前瞻性收集回顾性分析2009年1月至2014年12月期间行根治性手术的胃癌患者的临床病理资料。采用Cox单多因素分析影响胃癌预后的相关指
人脸识别是利用人的面部特征进行身份验证与识别的一种重要技术,在日常生活中具有广泛的应用前景。近年来提出了许多人脸识别算法,这些算法在有约束的人脸图像数据集上取得了较好的识别效果。然而在现实应用场景下,受到视频采集设备配置相对落后、自然环境恶劣、噪声干扰严重等外部因素的影响,现有的人脸识别算法在这些复杂条件下的准确率有所下降。因此在低分辨率条件下提升人脸识别的准确率非常重要,在现实生活中也具有极大的