论文部分内容阅读
随着大数据和人工智能时代的到来,数据成为了各行业的首要关注点,而传统的领域本体构建技术多数基于结构化数据或半结构化数据进行抽取,忽略了非结构化数据中可能包含的重要信息;其次,从中文文本中抽取本体的关键是术语抽取,而传统的词向量构建算法TF-IDF和word2vec需要重复遍历语料库,耗时高、杂质多,且不考虑术语的全文复现度和共现度,导致查准率和查全率较低;再次,中文术语从非结构化走向结构化需要进行概念性验证和结构化表示;最后,本体作为一种共享概念模型的形式化表示,应当具有较强的主动学习能力。针对上述问题,本文采用CKIP概念结构树,省略了人工标注;采用Wikipedia Extractor从维基百科中抽取多领域的文本数据,用wiki百科的定义数据作为偏移修正;在提出建立中文语料库的构建原则后,采用CKIP系统构建术语的概念结构树、进行文本预处理中的词法句法分析,制定3个基于语言形态和概念结构的参数WPOS、WTV、WTC,提出一种无监督的自组织映射SOM的术语抽取算法;本文从内涵、外延、同义词识别几个方面对术语进行概念验证,进一步简化概念结构树,进行语义消歧和冗余去除;使用规则匹配和后缀匹配相结合的方式、基于相似度的细粒度算法完成概念上下位关系抽取;给出中文领域本体的五元组形式化定义:D={C,A,R,O,X},提出基于事件三元组(A-R-O)的本体抽取的理论实现算法;最后,提出一种基于概念共振强度yCRS的并行模糊推理机制,用于提高领域本体的自学习能力。本文提出一套用于从非结构化中文文本中抽取领域本体的策略,以“足球”和“自然灾害”作为领域背景,以概念的上下位关系抽取结果作为评估指标,实验结果表明,在相同训练集下,本文方法可将非结构化领域文本逐步实现结构化处理,以底层关系数据表存储,且较之传统常用的TF-IDF相似度算法和word2vec词向量算法,在上下位关系关系抽取方面有相对较高的查准率。