面向知识图谱的学习算法研究与应用

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:serinol
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着认知智能技术的深入发展,知识图谱俨然成为了大数据时代的一种重要的知识表示形式。在多个垂直领域,以数据分析、智慧搜索、智能推荐、自然人机交互为主的实际应用场景中,皆对知识图谱提出了客观的使用需求。与此同时,知识图谱作为实现机器认知智能的重要基石,同样是现阶段人工智能领域的热门研究课题。本文面向知识图谱构建与智能应用中的若干关键理论问题开展学习算法研究与实证分析。其中,从开放域环境中自动获取关系实例是构建大规模知识图谱的基础,精准地识别概念间的上下位关系是在纵向层面上扩展知识层级体系结构的关键,通过知识图谱表示学习可实现知识图谱数值化表示,得以让机器更好地处理并应用知识图谱进行知识计算。立足于文本数据,构建一套完整的领域知识图谱模型是一个极富挑战性的任务。本文的研究内容与主要贡献可总结为:第一,针对开放域场景下的实体关系抽取问题,提出了一个基于句法分析的开放关系抽取模型。该模型采用一种规则增强的句法分析方法,提高了对句子结构的分析能力,从而得到了更多具有高质量关系短语的三元组。再者,通过一种关系强度度量方法,从中进一步筛选出显著且有良好关系强度的三元组作为最终的抽取结果。我们在四个真实世界的开放域数据集上进行了实证研究,实验结果表明:我们的方法具有无监督、自动化的特点,能够适应一定规模的异质文本语料。相比于多个具有代表性的基线方法,我们的模型在开放关系抽取任务上实现了性能的提升。第二,针对知识图谱中概念上下位语义关系的精准识别问题,我们充分利用WordNet和英文版维基百科这两个高质量的外部知识库,赋予候选上下位关系元组中的两个概念以文本定义的证据,提出了一个由概念定义驱动的上下位关系预测模型。一方面,通过引入高价值的文本知识,拓展了概念的语义上下文,弥补了现有方法从特征并不充分的,有着领域独立性的训练语料的上下文中学习概念嵌入表示的局限性。再者,有助于更好的解释领域相关的,或存在歧义的候选上下位关系元组;另一方面,模型能够将(概念,概念的定义)进行联合建模,有助于挖掘两者语义上下文中隐含的上下位关系特征。最后,通过端到端的训练,避免了传统预测模型先学习概念嵌入表示,再学习二元分类器的诸多局限,更为有效地利用了训练数据。在开放域与限定域数据集上的实验结果表明,我们的模型在性能与泛化能力上表现一致,且优于近年来表现较好的基线模型。第三,针对时序知识图谱上缺失链接的补全与纠正问题,我们基于该问题的先领性工作,提出了一个名为TKGFrame的两阶段时序知识图谱补全模型。TKGFrame在以下三个方面进行了扩展:第一方面,提出了一种改进的时序演化矩阵,使其能够更好地刻画同一个时序关系链条上时序顺序关系之间的演化强度。第二方面,基于时序知识图谱的嵌入结果,将其中缺失事实成立的合理性度量建模为一个带约束的优化问题,并采用整数线性规划方法对该问题进行求解,进一步过滤了候选结果中的不合理预测;第三方面,将上述两个模型无缝地整合在TKGFrame框架之下。在三个真实世界的时序知识图谱数据集上的实验结果表明,TKGFrame模型在实体预测和关系预测任务上的性能显著优于目前主流的相关工作。第四,新闻通常产生自特定的事件或者话题,如今已成为人们从互联网上获取信息的重要来源。在现实场景中,用户易于淹没在快速累积的、冗余的、多样的新闻报道之中,而无法有效感知并掌握其中重要的事实知识,从上述真实的用户诉求出发,我们提出了一套名为MuReX的概念知识图谱构建模型,该模型包括一种结合多种抽取器的抽取策略、一种改进自学习框架的两阶段候选关系实例过滤算法、一种关系实例兼容性度量、一种关系实例重要性度量、一种启发式知识图谱构造策略。这些完整且实用的技术被集成到了统一的MuReX框架,经过数据预处理、候选关系实例抽取、主题一致性估计、关系实例兼容性度量和概念知识图谱生成五个重要的建模过程,最终生成了包含显著事实的、高质量的概念知识图谱。据此,用户得以快速地洞察特定主题下的新闻事实、事件的发展脉络,以及探索其中潜在的、新的关系连接。
其他文献
目的 :探讨对颅脑损伤并发顽固性呃逆患者进行系统化护理的效果。方法 :对2016年3月至2017年3月期间芜湖市第一人民医院收治的43例颅脑损伤并发顽固性呃逆患者的临床资料进行
陈寿《三国志》,完整地记叙了自汉末至晋初近百年间中国由分裂走向统一的历史全貌。成书后,受到时人的好评,“时人称其善叙事,有良史之才。”陈寿《三国志》采用司马迁所创纪
历史人物和历史事件都是在特定的时间和空间里出现的,而某一历史发展阶段也往往具有比较鲜明的时代主题,被深深地打上了时代的烙印。因此,学习历史需要具备明晰的时空意识,弄清历史发展线索,理解历史发展规律,这样在学习和考试时才不会上演“时空穿越”的闹剧,稀里糊涂地犯一些低级错误。下面,笔者结合2013年各地中考历史的部分试题,和大家一起探讨如何把握时间要素、准确答题。  【真题解析】  例1 (2013·
【热点材料】  2012年11月,在国家博物馆参观复兴之路展览时,习近平表示:落后就会挨打,发展才能自救。审视现在,全党要牢记,道路决定命运,找到一条正确道路是多么不容易,必须坚定不移地走下去。把蓝图变成现实,还将走很长的路。  2013年3月,习近平在俄罗斯演讲时指出:鞋子合不合脚,自己穿了才知道。一个国家的发展道路合不合适,只有这个国家的人民才最有发言权。  2013年6月,习近平在主持中共中
【考点梳理】1.认识生命是地球上最珍贵的财富,理解人类生命离不开大自然的哺育。
<正>2018年11月18日,第30届江苏省"教海探航"征文竞赛颁奖大会暨苏派与全国名师课堂教学观摩研讨活动在苏州市吴中区开幕,同期举行了"教海探航"征文竞赛30年回顾与展望专题研
2012年河南省中考思想品德B卷是备用卷,与启用卷A卷是平行卷,但仔细阅渎与研究后不难发现,这仍然是一套高水准、高质量的试卷。两套试卷命题理念、原则高度一致,考点、侧重点虽有
[热点材料]材料一:2013年9月26日,由中央宣传部、中央文明办、解放军总政治部、全国总工会、共青团中央、全国妇联共同主办的第四届全国道德模范评选表彰颁奖典礼——《圆中
期刊
目的探讨抗氧化剂仅.硫辛酸对糖尿病周围神经病变的治疗效果。方法将168例糖尿病周围神经病变患者随机分为对照组和观察组,对照组采用传统的基础治疗,观察组在同对照组治疗的基