论文部分内容阅读
21世纪教育信息化发展迅速,计算机辅助教学是国家和社会比较推崇的一种教学形式。但由于网络学习资源冗杂,中学生在没有教师的指导下学习容易产生知识迷航、知识过载的现象,因此构建高中数学知识图谱是计算机辅助教学的一项基本工作,可以成为教师在教学过程中进行教学辅导的重要工具。建立高中数学知识图谱,就必须对其概念及概念间关系进行本体学习,从而抽取到可以准确描述高中数学领域的定义、公理等知识。本文主要从百度百科和中文维基百科的词条信息对高中数学知识领域的定义、定理等进行概念及概念间抽取,从而形成一个高中数学本体知识库,主要工作如下:(1)基于语言学的概念抽取虽然根据语义语法对语料进行分析,很少出现歧义,但处理大量语料数据时的效率过低;基于统计的概念抽取根据词频等统计信息对概念进行抽取,由于没有语义语法支撑,所以抽取的准确度不高。在本文中将这两种方法结合,首先建立词性规则库,按照词性组合规律,在规则库中进行匹配得到高中数学知识领域的概念候选集;然后在概念候选集的基础上,用互信息、左右信息熵和TF-IDF算法结合的统计算法对其进行筛选,得到高中数学知识领域的概念集。(2)针对父子关系等分类关系,首先将百科词条的页面分类结构进行聚类,然后经过共现分析得到概念父子对,发现当错误率为5%时,得到的概念父子对数量多且阈值合理;针对非分类关系,首先利用关联规则抽取候选概念集合中的概念对,经过实验后,发现当支持度阈值为0.000197,置信度阈值为0.0103时,抽取效果较好,得到概念对319对;然后利用SCWS分词系统得到谓语动词,并利用TF-IDF算法对其进行过滤,得到可以表示关系的谓语动词;最后根据之前抽取得到的概念父子对以及谓语动词可以构造三元组模型,在本文中根据似然函数将概念父子对与谓语动词进行匹配。本文通过对中文百科中高中数学词条的概念及概念间关系进行抽取,构建高中数学的本体知识库,借助Protégé工具使高中数学知识可视化形成知识图谱,并将其运用至系统中,使其更具有实用性。