论文部分内容阅读
摘 要:为了实现高中数学题目的智能识别与自动理解,本文考虑将自动理解应用于数学应用题中,实现一个应用题自动理解系统。高中应用题有规范的语法、简明的文字叙述、清晰的上下文关系、严谨简单的逻辑关系,涉及常识知识少且仅含有加减乘除四则运算的特点,因此本文只选取高中生应用题作为研究对象。本文根据中文语义的基本特点,把高中生应用题自动理解系统与概念层次网络理论相联系并进行有机的结合,将概念层次网络理论句类的分析技术应用于对计算机对应用题语义的成分进行自动分析。在语义的成分分析完成之后再依据语义分析实现的算法,归纳出高中应用题题目中包含的关系(主要是数量之间的关系)。
关键词:概念层次网络理论;自动理解
1 概论
1.1 自然语言理解的含义
广义“语言”是指任意有结构的符号系统。在这之中,自然语言和形式语言是常用的最关键的两种语言。然而狭义“语言”是说人类在社会生活中发展出来的用来互相交际的声音符号系统,是“自然语言”。
“自然語言理解”又名为人机对话,说的是让计算机根据这种语言所传递的指令做出相对应的回应的体系。
1.2 自然语言理解技术的含义
(1)自然语言是非常繁琐的符号系统。
(2)自然语言所有层次都具有非常高的不稳定性。
(3)自然语言是时时刻刻都在改变的,它在人们的日常生活中变化,在不同语言的使用者之的相互影响和发展。
(4)自然语言是人们交流思想的工具。
2 自动理解系统涉及到的问题
(1)人类拥有独立的语言能力,可以做出词与词之间的区分,为了使计算机能够达到类似的效果,需要将有可能用到的词语搜集到计算机系统中并构建相应的词语库。
(2)人们是通过识别出题目语句中的各个成分来对应用题题目进行理解的。计算机必须具有对句子中重要成分进行划分并标注,才能拥有像人类一样的能力。
(3)本文的最终目的是为了理解应用题,分析句子成分之后如何提炼成分之间的数量关系,即如何将题目中涉及的知识提取表述出来。
综上所述,为获得能达到以上三点要求的一个系统,应解决如下问题:
① 句子成分的自动分析
句子成分的自动分析意味着识别出句子中的各个单词。这包括了确定句子中的各个成分,以及判断不同成分的必要性,并如何实现其中的具体过程。
② 题目所含信息的提取与表示
题目所含信息的提取与表示则意味着要在分析句子成分后提取有效的信息,并将这些信息以计算机能够理解的方法进行表达。
3 句子不同成分的分析
3.1 语义块
语义块在句子中起着最小语义构成单位的作用,常用词或短语来表达。语义块的具体分类如下所示:
(1)主语义块:主语义块是句义中最重要的成分之一,可以将他们的组成部分分成核心部分和说明部分。
(2)辅语义块:相比于主语义块显得无足轻重。
在概念网络理论中,特征语义块的上装代表前说明成分,特征语义块的下装代表后说明部分。特征语义块的构成可表示如下:
E=上装+Ek+下装 公式1
其中,Ek是E块的核心部分。
3.2 句类
句类定义了句子的语义类别,具体分类如下所示:
(1)基本句类:基本句类只表达作用效应链的一个环节。
(2)混合句类则表达作用效应链的任意多个环节。
E语义块可以构成效应句、作用句、转移句、过程句、状态句和关系句。每一个基本句类有其下属类别,下属类别之下还可以再分子类。
3.3 概念层次网络理论的句类分析技术
概念层次网络理论的句类分析技术是专门为了对语句进行句子语义成分分析的一类技术,是识别句子中各语义块的一种方法。
概念层次网络理论的句类分析通过以下步骤来完成:
(1)对语义块进行感知。
(2)作出语义假设。
(3)旬类检验。通过对句类的合理性进行分析,确定出句子的句类。
(4)分析语义块的构成。在旬类检验通过之后,分析各个语义块的内部结构。
本文主要是利用HNC的句类分析技术,对句子中的各个语义块进行识别,识别之后按照一定规则提取出各个语义块之间的数量关系。
4 系统的设计
为了将以句类知识提取思想诉诸实践,实现前面所设计的算法,对这一思想的可行性以及实用性进行检验,本文设计并实现了一个自动理解系统。系统的总体模型如下:
依据本文中设计的系统总体模型框图,设计出的应用题自动理解系统的具体流程为:
(1)先处理各个分句;再处理各个分句中的各个分词,以词的序列来代替各个分句。
(2)通过字词结合规则预处理阶段,标注一些特殊的语义块。
(3)识别语义块,具体途径则参照概念层次网络理论的句类知识和语义块知识。
(4)结合特定规则提炼出各个子句蕴含的知识;最后扫描问题,寻找出需要求的未知量。
5 结束语
5.1 本文总结
本文通过研究自动理解应用题系统的设计原理与设计思路,分析了自动理解时需要注意的问。本文做的主要工作如下:
(1)针对高中生应用题的具体特点,在概念层次网络主要理论基础上,概括总结了常用的3种句子成分的划分模块。
(2)给出了高中生应用题自动理解系统的总体设计模型和基本设计流程。
5.2 进一步研究
本文在概念层次网络理论的基础上设计出了高中生应用题自动理解,在未来的科研工作中,本文准备再做以下几个方面的深入研究:
(1)加强系统功能:本系统初步实现了应用题自动理解,因此在下一步中可以考虑继续实现已被理解题目的相关解答,即添加应用题自动解题模块。
(2)深入使用概念层次网络理论:为了处理各变量之间关系更加复杂的应用题,可以在自动理解系统中应用更多概念之间的关联性,以提高系统在高复杂度下的执行效率。
参考文献
[1] 晋耀红.HNC(概念层次网络)语言理解技术及其应用[M].北京:科学出版社,2006.
[2] 苗传江.HNC(概念层次网络)理论导论[M].北京:清华大学出版社,2005.
[3] 李辉阳,韩忠愿.有限领域简述文字的自动判读及其在CAI中的应[J].计算机工程与应用,2002,38(8):76-79.
[4] 黄康,袁春风.基于领域概念网络的自动批改技术[J].计算机应用研究,2004,21(11):260-262.
[5] 李传中,左传波.超级画板范例教程[M].北京:科学出版社,2004.
关键词:概念层次网络理论;自动理解
1 概论
1.1 自然语言理解的含义
广义“语言”是指任意有结构的符号系统。在这之中,自然语言和形式语言是常用的最关键的两种语言。然而狭义“语言”是说人类在社会生活中发展出来的用来互相交际的声音符号系统,是“自然语言”。
“自然語言理解”又名为人机对话,说的是让计算机根据这种语言所传递的指令做出相对应的回应的体系。
1.2 自然语言理解技术的含义
(1)自然语言是非常繁琐的符号系统。
(2)自然语言所有层次都具有非常高的不稳定性。
(3)自然语言是时时刻刻都在改变的,它在人们的日常生活中变化,在不同语言的使用者之的相互影响和发展。
(4)自然语言是人们交流思想的工具。
2 自动理解系统涉及到的问题
(1)人类拥有独立的语言能力,可以做出词与词之间的区分,为了使计算机能够达到类似的效果,需要将有可能用到的词语搜集到计算机系统中并构建相应的词语库。
(2)人们是通过识别出题目语句中的各个成分来对应用题题目进行理解的。计算机必须具有对句子中重要成分进行划分并标注,才能拥有像人类一样的能力。
(3)本文的最终目的是为了理解应用题,分析句子成分之后如何提炼成分之间的数量关系,即如何将题目中涉及的知识提取表述出来。
综上所述,为获得能达到以上三点要求的一个系统,应解决如下问题:
① 句子成分的自动分析
句子成分的自动分析意味着识别出句子中的各个单词。这包括了确定句子中的各个成分,以及判断不同成分的必要性,并如何实现其中的具体过程。
② 题目所含信息的提取与表示
题目所含信息的提取与表示则意味着要在分析句子成分后提取有效的信息,并将这些信息以计算机能够理解的方法进行表达。
3 句子不同成分的分析
3.1 语义块
语义块在句子中起着最小语义构成单位的作用,常用词或短语来表达。语义块的具体分类如下所示:
(1)主语义块:主语义块是句义中最重要的成分之一,可以将他们的组成部分分成核心部分和说明部分。
(2)辅语义块:相比于主语义块显得无足轻重。
在概念网络理论中,特征语义块的上装代表前说明成分,特征语义块的下装代表后说明部分。特征语义块的构成可表示如下:
E=上装+Ek+下装 公式1
其中,Ek是E块的核心部分。
3.2 句类
句类定义了句子的语义类别,具体分类如下所示:
(1)基本句类:基本句类只表达作用效应链的一个环节。
(2)混合句类则表达作用效应链的任意多个环节。
E语义块可以构成效应句、作用句、转移句、过程句、状态句和关系句。每一个基本句类有其下属类别,下属类别之下还可以再分子类。
3.3 概念层次网络理论的句类分析技术
概念层次网络理论的句类分析技术是专门为了对语句进行句子语义成分分析的一类技术,是识别句子中各语义块的一种方法。
概念层次网络理论的句类分析通过以下步骤来完成:
(1)对语义块进行感知。
(2)作出语义假设。
(3)旬类检验。通过对句类的合理性进行分析,确定出句子的句类。
(4)分析语义块的构成。在旬类检验通过之后,分析各个语义块的内部结构。
本文主要是利用HNC的句类分析技术,对句子中的各个语义块进行识别,识别之后按照一定规则提取出各个语义块之间的数量关系。
4 系统的设计
为了将以句类知识提取思想诉诸实践,实现前面所设计的算法,对这一思想的可行性以及实用性进行检验,本文设计并实现了一个自动理解系统。系统的总体模型如下:
依据本文中设计的系统总体模型框图,设计出的应用题自动理解系统的具体流程为:
(1)先处理各个分句;再处理各个分句中的各个分词,以词的序列来代替各个分句。
(2)通过字词结合规则预处理阶段,标注一些特殊的语义块。
(3)识别语义块,具体途径则参照概念层次网络理论的句类知识和语义块知识。
(4)结合特定规则提炼出各个子句蕴含的知识;最后扫描问题,寻找出需要求的未知量。
5 结束语
5.1 本文总结
本文通过研究自动理解应用题系统的设计原理与设计思路,分析了自动理解时需要注意的问。本文做的主要工作如下:
(1)针对高中生应用题的具体特点,在概念层次网络主要理论基础上,概括总结了常用的3种句子成分的划分模块。
(2)给出了高中生应用题自动理解系统的总体设计模型和基本设计流程。
5.2 进一步研究
本文在概念层次网络理论的基础上设计出了高中生应用题自动理解,在未来的科研工作中,本文准备再做以下几个方面的深入研究:
(1)加强系统功能:本系统初步实现了应用题自动理解,因此在下一步中可以考虑继续实现已被理解题目的相关解答,即添加应用题自动解题模块。
(2)深入使用概念层次网络理论:为了处理各变量之间关系更加复杂的应用题,可以在自动理解系统中应用更多概念之间的关联性,以提高系统在高复杂度下的执行效率。
参考文献
[1] 晋耀红.HNC(概念层次网络)语言理解技术及其应用[M].北京:科学出版社,2006.
[2] 苗传江.HNC(概念层次网络)理论导论[M].北京:清华大学出版社,2005.
[3] 李辉阳,韩忠愿.有限领域简述文字的自动判读及其在CAI中的应[J].计算机工程与应用,2002,38(8):76-79.
[4] 黄康,袁春风.基于领域概念网络的自动批改技术[J].计算机应用研究,2004,21(11):260-262.
[5] 李传中,左传波.超级画板范例教程[M].北京:科学出版社,2004.