论文部分内容阅读
在当前远程教育教学中,对于网络学习来说,由于学习者和教师在地理位置上的分离,缺少了教师面对面的解释和演绎,学习者必须进行自主学习。这便要求学习者从听众变成索求者,要进行深入的思考,但有时在百思不得其解时,及时有效的网络答疑模式则成了答疑解惑的重要途径。这就要求网上教学系统能够及时解答学生的疑难问题,消除学生的学习障碍。智能答疑系统的出现及普及就能从根本上解决求学者的需求,它突破了传统答疑方式的时间、空间局限,提供了高效、快速的学生与教育资源的交互,不但能支持网络教育的顺利进行,还是传统教育的有益补充。
但是如今在我们国内网上教育平台或教育网站中真正具有智能性的网上答疑系统还是比较少,大多数教育类网站的答疑系统仍然采用电子邮件、留言板、BBS、聊天室等基于网络的人际交互方式实现答疑。甚至有些教育网站根本就没有答疑系统。可见,国内大部分教育人员对网上答疑的认识还局限在传统教学中的人际交互的模式中,而没有充分的认识到当前在计算机领域中的网络技术、人工智能等先进技术能够提供给网络教学中智能答疑的强大支持。
本文主要通过以中央电大开放教育的电大在线学习系统为依托,对国内外智能答疑模式的研究现状进行分析,对远程教育的学习方式中智能答疑系统的重要性进行调研,构建适应开放教育网络教学中个人学习资源共享模块的初步构建。
1 学习答疑室
在学习者最初遇到学习难题的时候,便可以直接的与教授教师进行联系,在学习答疑室模式中通过给教师发动电子邮件、进入BBS和聊天室等。E-mail方式,在系统没有搜索到问题答案时,可使用“mail to<电子邮件地址>”语句实现,用户点击“发送到教师信箱”按钮,就可以完成邮件的发送,等待教师的回信解答;BBS为学生和教师、学生和学生之间提供了一个自由发言、相互学习、相互探讨、共同提高的平台。学生进入BBS页面,可以同时看到其他学生所提出的问题以及教师的解答,能够及时的更新,获取有用与自己的信息;聊天室提供了实时在线解答的功能,在聊天室里,学生与学生之间,学生与教师之间可以随意的交流。
2 自动检索答案
在不能与教授取得有效的情况下,学习者想通过自主寻求答案的方式来解决问题时,自动检索答案模块将会是一个不错的选择,它涵盖了人工智能的一些理论技术,主要有两部分来实现:问题预处理和问题答案相匹配。
1)问题预处理
对学习者以自然语言的形式提出的问题进行预处理,主要采用分词技术对问题语句进行切分处理,提出匹配所需要的关键词。
答案材料是以HTML文件的格式存储的。因此首先要先把文档中的文本抽取出来,包括HTML文件的BODY中的TITLE标记的标题文本、HTML文件的头部中的以META标记的Keywords属性指定的关键词序列和正文文本。对于前面两者的文本还要做特殊标记,作为在加权时的一个权值确定依据。
接下来对得到的文本序列进行初始的子串切分。也就是利用显式的切分标记将文本切分成汉字短串的序列,其中包括标点、数字、西文以及其它非汉字符号。串频统计的目的在于利用统计的方法来获得系统中的一些新词,这些词被称为临时词库,它们将与系统本身的常用词词库一起作为切分时的依据。临时词库中的词的优先级高于系统本身的常用词库的词的优先级。
统计的标准是计算各汉字短字符串的所有子串长度大于1的在全文中出现的次数,并根据子串和串频的长度对每个子串进行加权进行计算。加权函数为W=L×F(L为子串的长度;F为子串在全文中出现的次数)。权值超过给定的阈值的子串作为系统自动识别出来的词条存入临时词库中。为了快速的计算出汉字短串中各个子串在全文中出现的次数,需要将文本转换成汉字的Hash表的形式。由于微软公司自Windows 95简体中文版始,系统采用的是GBK(《汉字内码扩展规范》)代码。而在GBK代码中,采用双字节编码,总体编码范围为8140-FEFE,首字节在81-FE之间,尾字节在40-FE之间。剔除xx7F一条线,总计23940个码位。共包括21886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个。所以选择的Hash函数值就是汉字的内码的首字节。对于可能引起的Hash冲突(也就是出现了在同一区的汉字),采取链地址的方法来解决。可以定义Hash表的数据结构如下所示:
TYPE postp=RECORD
seqno:integer;//当前的字所在的字符串排在第几个字符串
charno : integer;//当前的字在所在的字符串中的位置
next : ^postp;//当前字的下一个位置
END;
TYPE tailtp = RECORD
tailbyte : 0x40..0xFE; //当前的字的内码的尾字节的值
pos : ^postp; //当前的字在全文中出现的位置列表
next : ^tailtp //指向在本文中出现的内码在同一区的汉字的有关信息
END;
TYPE hashtable = RECORD
Elem : ARRAY[0x81..0xFE] OF tailtp
//全文所有的汉字的Hash表,索引值就是汉字内码的首字节。
END;
2)答案搜索匹配
根据预先建立的基于关键词的索引结构,将答案快速定位,找出问题匹配度最高的答案。
搜索技术最关键的一点就是将原始文档中所有的基本元素的位置信息记录在索引库中。在汉语中,关键词可选择的基本元素可以是字,也可以是词。这便形成了两种索引库结构,一种是基于字表的索引库,另一种是基于词表的索引库。字表法是将原始文档中的每个字的位置信息记录在索引库中;而词表法则是以词为单位将其位置信息记录在索引库中。词表法的全文索引库的主要部分是每个关键词的词表,索引库中的词表结构如下表所示: …… …… …… ……
词语i文档j的ID权值位置序列
…… …… …… ……
上述索引库中的词表结构中,词语i就是被索引的能够代表目标文档j的文本特征的关键词。由于这样的关键词可能不只在某一个文档中是关键词,所以后面的文档选项中记录了对应目标的文档j的ID号,通过ID号,可以在答案文档库中查找目标文档j的属性信息。权值则是词语i在文档j中的权值。位置序列则是词语i在文档j中出现的位置的数组,位置使用词语i在文档j中的偏移字节数。
由于使用词表法建立对答案材料的全文索引,使得检索策略变的很简单。当遇到一个输入的问题文本,可以将索引库中的词条集合作为词典,使用逆向最大匹配算法来进行分词,并针对每个目标文档进行关键词权值和的计算。权值和超过系统指定的阈值的文档将被返回。文档返回的顺序按照权值和的大小降序排列。
而对于高级检索功能的实现,可以对自然语言表示的问题文本先分词,然后根据词表法表示的索引库进行搜索。这就相当于对关键词的逻辑与组合进行搜索。除了这种使用方式,智能答疑系统还可以通过直接的关键词逻辑组合鹤通过通配符进行模糊检索等来实现高级检索功能。
关键词的逻辑组合检索,也就是布尔检索,是指多个关键词之间按照一定的逻辑运算关系组合在一起形成的组合检索。支持的基本逻辑关系包括“与”、“或”和“非”三种,还可以与括号组合在一起形成逻辑表达式。检索的时候,系统首先要分析逻辑表达式,将其转换为逆波兰表达式,然后顺序处理该表达式,对遇到的被检索的关键词进行检索,并根据表达式中的逻辑关系,结合中间结果对检索范围进行优化,处理结束后,将得到符合条件的所有文档。
3 自动扩展更新答案知识库
自动扩展更新答案知识库是实现自动检索答疑的一个非常重要的环节,是实现智能答疑功能的基础。知识库的最初建立是由相关任课教师来完成的,随着学生不断提出新的问题,由教师和管理员来进行知识的添加、维护或者删除。智能答疑系统是一个具有知识记忆、数据计算统计、逻辑推理、知识学习和实现友好人机交互的智能系统,其本质就是一个具有智能性的知识系统。它支持自然语言的提问,可以自动检索问题并呈现有效答案,还能够通过学习来自动扩展和更新答案知识库。它的这些特点,使学习者在学习时能够使用自己熟悉的方式表达问题,并能够及时获得与问题较为相关的一些反馈答案。
对知识库的自动扩展更新实际上就是对知识库资源的特殊维护,也是涉及人工智能的很多范畴,本模块的内容有可待进一步深探。
4 结束语
在开放教育教学模式下,学习者通过个人学习资源共享模块进行有效的获取学习资源,这个模块集中了所有用户所共享的个人资源,用户可以通过搜索的方式来查看自己感兴趣的资源。用户可以通过自动搜索答案的形式来寻找问题的答案,如果遇到新问题,还可以通过自动更新扩展知识库的模块来增加搜索信息量。这种智能答疑模式对于学习者来说是一种直接、快速、有效的学习方式,更是深入理解网络教学系统开发的理论基础和关键技术,对今后开放教育网络教学有重要作用。
参考文献:
[1]王锦红、李梅,我国网络教育的现状及对策研究[J].科学教育论坛,2005,20(6):15-20.
[2]黄玉,发展网络教学面临的问题与策略[J].合肥工业大学学报,2005,19(2):25-27.
[3]高波、陆文杰,网络教学模式形成的理论研究[J].河北大学学报,2005,10(4):10-15.
但是如今在我们国内网上教育平台或教育网站中真正具有智能性的网上答疑系统还是比较少,大多数教育类网站的答疑系统仍然采用电子邮件、留言板、BBS、聊天室等基于网络的人际交互方式实现答疑。甚至有些教育网站根本就没有答疑系统。可见,国内大部分教育人员对网上答疑的认识还局限在传统教学中的人际交互的模式中,而没有充分的认识到当前在计算机领域中的网络技术、人工智能等先进技术能够提供给网络教学中智能答疑的强大支持。
本文主要通过以中央电大开放教育的电大在线学习系统为依托,对国内外智能答疑模式的研究现状进行分析,对远程教育的学习方式中智能答疑系统的重要性进行调研,构建适应开放教育网络教学中个人学习资源共享模块的初步构建。
1 学习答疑室
在学习者最初遇到学习难题的时候,便可以直接的与教授教师进行联系,在学习答疑室模式中通过给教师发动电子邮件、进入BBS和聊天室等。E-mail方式,在系统没有搜索到问题答案时,可使用“mail to<电子邮件地址>”语句实现,用户点击“发送到教师信箱”按钮,就可以完成邮件的发送,等待教师的回信解答;BBS为学生和教师、学生和学生之间提供了一个自由发言、相互学习、相互探讨、共同提高的平台。学生进入BBS页面,可以同时看到其他学生所提出的问题以及教师的解答,能够及时的更新,获取有用与自己的信息;聊天室提供了实时在线解答的功能,在聊天室里,学生与学生之间,学生与教师之间可以随意的交流。
2 自动检索答案
在不能与教授取得有效的情况下,学习者想通过自主寻求答案的方式来解决问题时,自动检索答案模块将会是一个不错的选择,它涵盖了人工智能的一些理论技术,主要有两部分来实现:问题预处理和问题答案相匹配。
1)问题预处理
对学习者以自然语言的形式提出的问题进行预处理,主要采用分词技术对问题语句进行切分处理,提出匹配所需要的关键词。
答案材料是以HTML文件的格式存储的。因此首先要先把文档中的文本抽取出来,包括HTML文件的BODY中的TITLE标记的标题文本、HTML文件的头部中的以META标记的Keywords属性指定的关键词序列和正文文本。对于前面两者的文本还要做特殊标记,作为在加权时的一个权值确定依据。
接下来对得到的文本序列进行初始的子串切分。也就是利用显式的切分标记将文本切分成汉字短串的序列,其中包括标点、数字、西文以及其它非汉字符号。串频统计的目的在于利用统计的方法来获得系统中的一些新词,这些词被称为临时词库,它们将与系统本身的常用词词库一起作为切分时的依据。临时词库中的词的优先级高于系统本身的常用词库的词的优先级。
统计的标准是计算各汉字短字符串的所有子串长度大于1的在全文中出现的次数,并根据子串和串频的长度对每个子串进行加权进行计算。加权函数为W=L×F(L为子串的长度;F为子串在全文中出现的次数)。权值超过给定的阈值的子串作为系统自动识别出来的词条存入临时词库中。为了快速的计算出汉字短串中各个子串在全文中出现的次数,需要将文本转换成汉字的Hash表的形式。由于微软公司自Windows 95简体中文版始,系统采用的是GBK(《汉字内码扩展规范》)代码。而在GBK代码中,采用双字节编码,总体编码范围为8140-FEFE,首字节在81-FE之间,尾字节在40-FE之间。剔除xx7F一条线,总计23940个码位。共包括21886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个。所以选择的Hash函数值就是汉字的内码的首字节。对于可能引起的Hash冲突(也就是出现了在同一区的汉字),采取链地址的方法来解决。可以定义Hash表的数据结构如下所示:
TYPE postp=RECORD
seqno:integer;//当前的字所在的字符串排在第几个字符串
charno : integer;//当前的字在所在的字符串中的位置
next : ^postp;//当前字的下一个位置
END;
TYPE tailtp = RECORD
tailbyte : 0x40..0xFE; //当前的字的内码的尾字节的值
pos : ^postp; //当前的字在全文中出现的位置列表
next : ^tailtp //指向在本文中出现的内码在同一区的汉字的有关信息
END;
TYPE hashtable = RECORD
Elem : ARRAY[0x81..0xFE] OF tailtp
//全文所有的汉字的Hash表,索引值就是汉字内码的首字节。
END;
2)答案搜索匹配
根据预先建立的基于关键词的索引结构,将答案快速定位,找出问题匹配度最高的答案。
搜索技术最关键的一点就是将原始文档中所有的基本元素的位置信息记录在索引库中。在汉语中,关键词可选择的基本元素可以是字,也可以是词。这便形成了两种索引库结构,一种是基于字表的索引库,另一种是基于词表的索引库。字表法是将原始文档中的每个字的位置信息记录在索引库中;而词表法则是以词为单位将其位置信息记录在索引库中。词表法的全文索引库的主要部分是每个关键词的词表,索引库中的词表结构如下表所示: …… …… …… ……
词语i文档j的ID权值位置序列
…… …… …… ……
上述索引库中的词表结构中,词语i就是被索引的能够代表目标文档j的文本特征的关键词。由于这样的关键词可能不只在某一个文档中是关键词,所以后面的文档选项中记录了对应目标的文档j的ID号,通过ID号,可以在答案文档库中查找目标文档j的属性信息。权值则是词语i在文档j中的权值。位置序列则是词语i在文档j中出现的位置的数组,位置使用词语i在文档j中的偏移字节数。
由于使用词表法建立对答案材料的全文索引,使得检索策略变的很简单。当遇到一个输入的问题文本,可以将索引库中的词条集合作为词典,使用逆向最大匹配算法来进行分词,并针对每个目标文档进行关键词权值和的计算。权值和超过系统指定的阈值的文档将被返回。文档返回的顺序按照权值和的大小降序排列。
而对于高级检索功能的实现,可以对自然语言表示的问题文本先分词,然后根据词表法表示的索引库进行搜索。这就相当于对关键词的逻辑与组合进行搜索。除了这种使用方式,智能答疑系统还可以通过直接的关键词逻辑组合鹤通过通配符进行模糊检索等来实现高级检索功能。
关键词的逻辑组合检索,也就是布尔检索,是指多个关键词之间按照一定的逻辑运算关系组合在一起形成的组合检索。支持的基本逻辑关系包括“与”、“或”和“非”三种,还可以与括号组合在一起形成逻辑表达式。检索的时候,系统首先要分析逻辑表达式,将其转换为逆波兰表达式,然后顺序处理该表达式,对遇到的被检索的关键词进行检索,并根据表达式中的逻辑关系,结合中间结果对检索范围进行优化,处理结束后,将得到符合条件的所有文档。
3 自动扩展更新答案知识库
自动扩展更新答案知识库是实现自动检索答疑的一个非常重要的环节,是实现智能答疑功能的基础。知识库的最初建立是由相关任课教师来完成的,随着学生不断提出新的问题,由教师和管理员来进行知识的添加、维护或者删除。智能答疑系统是一个具有知识记忆、数据计算统计、逻辑推理、知识学习和实现友好人机交互的智能系统,其本质就是一个具有智能性的知识系统。它支持自然语言的提问,可以自动检索问题并呈现有效答案,还能够通过学习来自动扩展和更新答案知识库。它的这些特点,使学习者在学习时能够使用自己熟悉的方式表达问题,并能够及时获得与问题较为相关的一些反馈答案。
对知识库的自动扩展更新实际上就是对知识库资源的特殊维护,也是涉及人工智能的很多范畴,本模块的内容有可待进一步深探。
4 结束语
在开放教育教学模式下,学习者通过个人学习资源共享模块进行有效的获取学习资源,这个模块集中了所有用户所共享的个人资源,用户可以通过搜索的方式来查看自己感兴趣的资源。用户可以通过自动搜索答案的形式来寻找问题的答案,如果遇到新问题,还可以通过自动更新扩展知识库的模块来增加搜索信息量。这种智能答疑模式对于学习者来说是一种直接、快速、有效的学习方式,更是深入理解网络教学系统开发的理论基础和关键技术,对今后开放教育网络教学有重要作用。
参考文献:
[1]王锦红、李梅,我国网络教育的现状及对策研究[J].科学教育论坛,2005,20(6):15-20.
[2]黄玉,发展网络教学面临的问题与策略[J].合肥工业大学学报,2005,19(2):25-27.
[3]高波、陆文杰,网络教学模式形成的理论研究[J].河北大学学报,2005,10(4):10-15.