论文部分内容阅读
利用海量的非结构化数据如Web文本构建知识库,已经成为近年来自然语言处理与机器学习领域的热门研究课题。自动知识库构建需要概念抽取和语义关系抽取两方面工作,概念提取旨在文本中发现名词概念,语义抽取旨在提取名词概念之间的语义关系,上下位关系是名词概念之间的一种重要关系。发掘名词概念之间的上下位语义对于构建语义字典、信息检索等具有重要作用。文本语义抽取一般采用分类模型,对于给定名词对判断其在特定上下文中是否存在语义关系,根据特征空间的不同,又分为基于传统文本特征和基于文本核的分类算法。前者使用例如N-Gram、词频词性等文本特征来描述词对周围的上下文,特征空间较为简单,并且难以刻画文本中较长的语法依赖。文本核能将原始特征映射到扩展后更高维度的希尔伯特特征空间,比以上基于特征的方法更能发掘句子的词法和语法特征。现有的文本核主要分为基于解析树和基于文本子串的核。实验显示,基于文本子串核的语义抽取准确率较高召回率较低,而解析树核则正好相反。随着目标词对之间距离的增大,这两种核的性能均会下降,但前者性能下降得更快。这主要因为当词对间距离增大时,文本子串核可以用作比较的子句变长,因而增大了不同子句之间出现相似词语序列的概率,导致相似度增大,降低了不同词对的区分度。另一方面,解析树核更强调语法解析树结构的相似度,因而对句子长度的增加相对不敏感。但对于解析树结构相似而词语完全不同的两个子句,单独从子树结构出发判断语义相似度显然不尽合理。为解决这些问题,提出一种自适应词对之间距离的混合核来进行上下位语义关系抽取的混合核。首先我们从句子的语法解析树出发,定义一种新的基于子路径的核。与其他解析树核过于依赖语法结构相比,该核加强了对原始词语参与句子成分构成上下位关系的考察。同时考虑到连续单词序列能更好的描述语义信息,我们基于词对的上下文序列定义了一种新的连续子序列核。最后我们使用加权平均方法来对这两种核进行融合。实验结果表明,混合之后的核不但显著提高了上下位语义关系抽取的准确率和召回率,还降低了子句长度对核函数性能的影响。对于概念网络构建,一方面我们需要自动化算法来尽量代替概念网络构建中的人工劳动,使构建的概念网络容易维护且易于更新,另一方面我们需要人工的知识来弥补自动构建中无法达到的部分效果,人工检验抽取出来的概念以及联系是否正确,为抽取出来的概念提供标签,这些标签是无法从文本中直接获取的抽象概念,因此自动构建算法需要与人工知识相结合才能保持准确率且适应大规模数据处理。本文利用已有的概念抽取以及关系抽取算法扩展人工构建的语义概念网络WordNet,在上下位语义抽取算法的基础上,本文设计了新的发掘文本中名词概念和语义关系的系统。该系统旨在结合现有的文本抽取工具和本文提出的新的上下位语义抽取算法,扩充已有的语义词典WordNet。通过该系统可以为语义应用如信息检索、社区问答、智能语音等提供更丰富的语义信息。