论文部分内容阅读
随着大数据时代的来临,网络数据呈现爆炸式增长趋势。如何从海量的网络数据中快速高效获取知识信息成为了网络数据时代亟需解决的问题。在众多知识获取的方法中,构建领域知识库的方法因其高效实用性得到人们的广泛关注。 在领域知识库中,领域概念的层次结构是必不可少的关键要素。领域概念层次结构的构建也是领域知识库构建的首要步骤。领域概念层次结构由领域概念和领域概念关系构成。针对这两个组成部分,现有的领域概念层次结构存在低频领域概念识别率低,领域概念关系识别不准确,概念层次结构数据稀疏等问题。本文针对开放文本无结构,噪声大的特点,提出并实现了一种自动化的领域概念层次结构抽取方法。该方法能够构建领域概念丰富、概念关系准确,层级组织结构严谨的领域概念层次结构。具体的研究内容如下: (1)针对低频领域概念识别率低的问题,本文提出了一种利用词向量扩展的加权HITS(WHITS)的领域概念抽取方法。该方法首先提出了一种新的词向量扩展方法,在此基础上,利用领域概念和领域概念对应的词向量构建二分图,使用WHITS算法获取领域相关的概念。实验表明,WHITS较已有的基于领域概念统计的互信息(MI)方法,领域一致性(Domain Cohesion)方法,HITS的领域概念方法在低频词抽取的F1值上分别提高了5%,6%,15%。 (2)针对领域概念关系识别不准确的问题,本文提出了利用相似概念对共现句子集合共同表征同一关系特征的“基于多句特征概念关系抽取方法”。该方法首先利用领域概念的词向量特征,语义特征,字面特征组合进行聚类,得到领域概念相近的聚类团。在同一聚类团中提取相近的候选概念对统一表达某种关系特征,训练分类模型进行关系识别。实验表明,这种方法较基于单句特征的关系抽取方法在F1值上提高了3.4%。 (3)针对构建的概念层次结构的稀疏性的问题,本文提出了基于概念相似度的潜在概念关系推断的方法。实验表明,这种潜在关系推断方法能够有效的改善概念层次结构稀疏带来的层次结构“扁平化”的问题。 最后,本文将领域概念层次结构的抽取方法应用在特定领域文档集合中,并将抽取的概念层次结构应用到系统中进行概念关联推荐和概念谱系展示,证明了该方法的实用性。