论文部分内容阅读
学术文献中蕴含了大量具有学术价值的核心知识点,对学术文献中的核心知识的抽取有利于学术知识的利用。本文针对学术文献的结构和语言使用的特征,提出了一套基于句法分析的文献核心知识抽取方法,可以有效地对学术文献正文内的核心知识块进行抽取。本文提出了一种基于句法分析的文献知识关联度算法,将句子中的实义词集分成核心词集与其他词集来表示文献的知识,通过计算句子间不同类型词集出现的词耦合对数计算句子之间的关联度,以此构建文本网络。提出了基于章节的权重算法,以章为单位利用各章之间的词耦合计算各章的权重,加权计算句子的点度中心度,抽取文章的关键句子。以关键句子为中心,提出了一套知识块识别方法,分别从语言相关性和知识相关性向上文和下文进行扩展,抽取出文章的核心知识块。本文以10篇学术文献为样本进行实验,并对实验结果进行了讨论分析,抽取出的核心知识块准确率为87%,知识块识别效率为68%,人工评价得分为65%,达到初步预期效果,基本可以完成研究任务。