论文部分内容阅读
随着认知智能技术的深入发展,知识图谱俨然成为了大数据时代的一种重要的知识表示形式。在多个垂直领域,以数据分析、智慧搜索、智能推荐、自然人机交互为主的实际应用场景中,皆对知识图谱提出了客观的使用需求。与此同时,知识图谱作为实现机器认知智能的重要基石,同样是现阶段人工智能领域的热门研究课题。本文面向知识图谱构建与智能应用中的若干关键理论问题开展学习算法研究与实证分析。其中,从开放域环境中自动获取关系实例是构建大规模知识图谱的基础,精准地识别概念间的上下位关系是在纵向层面上扩展知识层级体系结构的关键,通过知识图谱表示学习可实现知识图谱数值化表示,得以让机器更好地处理并应用知识图谱进行知识计算。立足于文本数据,构建一套完整的领域知识图谱模型是一个极富挑战性的任务。本文的研究内容与主要贡献可总结为:第一,针对开放域场景下的实体关系抽取问题,提出了一个基于句法分析的开放关系抽取模型。该模型采用一种规则增强的句法分析方法,提高了对句子结构的分析能力,从而得到了更多具有高质量关系短语的三元组。再者,通过一种关系强度度量方法,从中进一步筛选出显著且有良好关系强度的三元组作为最终的抽取结果。我们在四个真实世界的开放域数据集上进行了实证研究,实验结果表明:我们的方法具有无监督、自动化的特点,能够适应一定规模的异质文本语料。相比于多个具有代表性的基线方法,我们的模型在开放关系抽取任务上实现了性能的提升。第二,针对知识图谱中概念上下位语义关系的精准识别问题,我们充分利用WordNet和英文版维基百科这两个高质量的外部知识库,赋予候选上下位关系元组中的两个概念以文本定义的证据,提出了一个由概念定义驱动的上下位关系预测模型。一方面,通过引入高价值的文本知识,拓展了概念的语义上下文,弥补了现有方法从特征并不充分的,有着领域独立性的训练语料的上下文中学习概念嵌入表示的局限性。再者,有助于更好的解释领域相关的,或存在歧义的候选上下位关系元组;另一方面,模型能够将(概念,概念的定义)进行联合建模,有助于挖掘两者语义上下文中隐含的上下位关系特征。最后,通过端到端的训练,避免了传统预测模型先学习概念嵌入表示,再学习二元分类器的诸多局限,更为有效地利用了训练数据。在开放域与限定域数据集上的实验结果表明,我们的模型在性能与泛化能力上表现一致,且优于近年来表现较好的基线模型。第三,针对时序知识图谱上缺失链接的补全与纠正问题,我们基于该问题的先领性工作,提出了一个名为TKGFrame的两阶段时序知识图谱补全模型。TKGFrame在以下三个方面进行了扩展:第一方面,提出了一种改进的时序演化矩阵,使其能够更好地刻画同一个时序关系链条上时序顺序关系之间的演化强度。第二方面,基于时序知识图谱的嵌入结果,将其中缺失事实成立的合理性度量建模为一个带约束的优化问题,并采用整数线性规划方法对该问题进行求解,进一步过滤了候选结果中的不合理预测;第三方面,将上述两个模型无缝地整合在TKGFrame框架之下。在三个真实世界的时序知识图谱数据集上的实验结果表明,TKGFrame模型在实体预测和关系预测任务上的性能显著优于目前主流的相关工作。第四,新闻通常产生自特定的事件或者话题,如今已成为人们从互联网上获取信息的重要来源。在现实场景中,用户易于淹没在快速累积的、冗余的、多样的新闻报道之中,而无法有效感知并掌握其中重要的事实知识,从上述真实的用户诉求出发,我们提出了一套名为MuReX的概念知识图谱构建模型,该模型包括一种结合多种抽取器的抽取策略、一种改进自学习框架的两阶段候选关系实例过滤算法、一种关系实例兼容性度量、一种关系实例重要性度量、一种启发式知识图谱构造策略。这些完整且实用的技术被集成到了统一的MuReX框架,经过数据预处理、候选关系实例抽取、主题一致性估计、关系实例兼容性度量和概念知识图谱生成五个重要的建模过程,最终生成了包含显著事实的、高质量的概念知识图谱。据此,用户得以快速地洞察特定主题下的新闻事实、事件的发展脉络,以及探索其中潜在的、新的关系连接。