论文部分内容阅读
针对目前领域概念抽取手工完成的现况,提出了一种基于知网的领域概念抽取和关系分析系统模型.本模型利用知网语义相关性从文本中生成领域语义词典,结合TFIDF算法建立“词-文本文档矩阵”,用以代替传统的词形频率统计;通过产生领域语义本体,利用语义相似度对概念进行聚类.讨论了这3个步骤所涉及的算法,包括基于统计模式从文本中抽词,基于奇异值分解从词-文档矩阵中提取概念,基于语义相似度对概念进行聚类等.实验表明,本文提出的抽取方法相对与词频算法具有较高的准确度.