对构建智能答疑系统中信息检索模式的研究

来源 :硅谷 | 被引量 : 0次 | 上传用户:gdtk88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  在当前远程教育教学中,对于网络学习来说,由于学习者和教师在地理位置上的分离,缺少了教师面对面的解释和演绎,学习者必须进行自主学习。这便要求学习者从听众变成索求者,要进行深入的思考,但有时在百思不得其解时,及时有效的网络答疑模式则成了答疑解惑的重要途径。这就要求网上教学系统能够及时解答学生的疑难问题,消除学生的学习障碍。智能答疑系统的出现及普及就能从根本上解决求学者的需求,它突破了传统答疑方式的时间、空间局限,提供了高效、快速的学生与教育资源的交互,不但能支持网络教育的顺利进行,还是传统教育的有益补充。
  但是如今在我们国内网上教育平台或教育网站中真正具有智能性的网上答疑系统还是比较少,大多数教育类网站的答疑系统仍然采用电子邮件、留言板、BBS、聊天室等基于网络的人际交互方式实现答疑。甚至有些教育网站根本就没有答疑系统。可见,国内大部分教育人员对网上答疑的认识还局限在传统教学中的人际交互的模式中,而没有充分的认识到当前在计算机领域中的网络技术、人工智能等先进技术能够提供给网络教学中智能答疑的强大支持。
  本文主要通过以中央电大开放教育的电大在线学习系统为依托,对国内外智能答疑模式的研究现状进行分析,对远程教育的学习方式中智能答疑系统的重要性进行调研,构建适应开放教育网络教学中个人学习资源共享模块的初步构建。
  1 学习答疑室
  在学习者最初遇到学习难题的时候,便可以直接的与教授教师进行联系,在学习答疑室模式中通过给教师发动电子邮件、进入BBS和聊天室等。E-mail方式,在系统没有搜索到问题答案时,可使用“mail to<电子邮件地址>”语句实现,用户点击“发送到教师信箱”按钮,就可以完成邮件的发送,等待教师的回信解答;BBS为学生和教师、学生和学生之间提供了一个自由发言、相互学习、相互探讨、共同提高的平台。学生进入BBS页面,可以同时看到其他学生所提出的问题以及教师的解答,能够及时的更新,获取有用与自己的信息;聊天室提供了实时在线解答的功能,在聊天室里,学生与学生之间,学生与教师之间可以随意的交流。
  2 自动检索答案
  在不能与教授取得有效的情况下,学习者想通过自主寻求答案的方式来解决问题时,自动检索答案模块将会是一个不错的选择,它涵盖了人工智能的一些理论技术,主要有两部分来实现:问题预处理和问题答案相匹配。
  1)问题预处理
  对学习者以自然语言的形式提出的问题进行预处理,主要采用分词技术对问题语句进行切分处理,提出匹配所需要的关键词。
  答案材料是以HTML文件的格式存储的。因此首先要先把文档中的文本抽取出来,包括HTML文件的BODY中的TITLE标记的标题文本、HTML文件的头部中的以META标记的Keywords属性指定的关键词序列和正文文本。对于前面两者的文本还要做特殊标记,作为在加权时的一个权值确定依据。
  接下来对得到的文本序列进行初始的子串切分。也就是利用显式的切分标记将文本切分成汉字短串的序列,其中包括标点、数字、西文以及其它非汉字符号。串频统计的目的在于利用统计的方法来获得系统中的一些新词,这些词被称为临时词库,它们将与系统本身的常用词词库一起作为切分时的依据。临时词库中的词的优先级高于系统本身的常用词库的词的优先级。
  统计的标准是计算各汉字短字符串的所有子串长度大于1的在全文中出现的次数,并根据子串和串频的长度对每个子串进行加权进行计算。加权函数为W=L×F(L为子串的长度;F为子串在全文中出现的次数)。权值超过给定的阈值的子串作为系统自动识别出来的词条存入临时词库中。为了快速的计算出汉字短串中各个子串在全文中出现的次数,需要将文本转换成汉字的Hash表的形式。由于微软公司自Windows 95简体中文版始,系统采用的是GBK(《汉字内码扩展规范》)代码。而在GBK代码中,采用双字节编码,总体编码范围为8140-FEFE,首字节在81-FE之间,尾字节在40-FE之间。剔除xx7F一条线,总计23940个码位。共包括21886个汉字和图形符号,其中汉字(包括部首和构件)21003个,图形符号883个。所以选择的Hash函数值就是汉字的内码的首字节。对于可能引起的Hash冲突(也就是出现了在同一区的汉字),采取链地址的方法来解决。可以定义Hash表的数据结构如下所示:
  TYPE postp=RECORD
  seqno:integer;//当前的字所在的字符串排在第几个字符串
  charno : integer;//当前的字在所在的字符串中的位置
  next : ^postp;//当前字的下一个位置
  END;
  TYPE tailtp = RECORD
  tailbyte : 0x40..0xFE; //当前的字的内码的尾字节的值
  pos : ^postp; //当前的字在全文中出现的位置列表
  next : ^tailtp //指向在本文中出现的内码在同一区的汉字的有关信息
  END;
  TYPE hashtable = RECORD
  Elem : ARRAY[0x81..0xFE] OF tailtp
  //全文所有的汉字的Hash表,索引值就是汉字内码的首字节。
  END;
  2)答案搜索匹配
  根据预先建立的基于关键词的索引结构,将答案快速定位,找出问题匹配度最高的答案。
  搜索技术最关键的一点就是将原始文档中所有的基本元素的位置信息记录在索引库中。在汉语中,关键词可选择的基本元素可以是字,也可以是词。这便形成了两种索引库结构,一种是基于字表的索引库,另一种是基于词表的索引库。字表法是将原始文档中的每个字的位置信息记录在索引库中;而词表法则是以词为单位将其位置信息记录在索引库中。词表法的全文索引库的主要部分是每个关键词的词表,索引库中的词表结构如下表所示:   …… …… …… ……
  词语i文档j的ID权值位置序列
  …… …… …… ……
  上述索引库中的词表结构中,词语i就是被索引的能够代表目标文档j的文本特征的关键词。由于这样的关键词可能不只在某一个文档中是关键词,所以后面的文档选项中记录了对应目标的文档j的ID号,通过ID号,可以在答案文档库中查找目标文档j的属性信息。权值则是词语i在文档j中的权值。位置序列则是词语i在文档j中出现的位置的数组,位置使用词语i在文档j中的偏移字节数。
  由于使用词表法建立对答案材料的全文索引,使得检索策略变的很简单。当遇到一个输入的问题文本,可以将索引库中的词条集合作为词典,使用逆向最大匹配算法来进行分词,并针对每个目标文档进行关键词权值和的计算。权值和超过系统指定的阈值的文档将被返回。文档返回的顺序按照权值和的大小降序排列。
  而对于高级检索功能的实现,可以对自然语言表示的问题文本先分词,然后根据词表法表示的索引库进行搜索。这就相当于对关键词的逻辑与组合进行搜索。除了这种使用方式,智能答疑系统还可以通过直接的关键词逻辑组合鹤通过通配符进行模糊检索等来实现高级检索功能。
  关键词的逻辑组合检索,也就是布尔检索,是指多个关键词之间按照一定的逻辑运算关系组合在一起形成的组合检索。支持的基本逻辑关系包括“与”、“或”和“非”三种,还可以与括号组合在一起形成逻辑表达式。检索的时候,系统首先要分析逻辑表达式,将其转换为逆波兰表达式,然后顺序处理该表达式,对遇到的被检索的关键词进行检索,并根据表达式中的逻辑关系,结合中间结果对检索范围进行优化,处理结束后,将得到符合条件的所有文档。
  3 自动扩展更新答案知识库
  自动扩展更新答案知识库是实现自动检索答疑的一个非常重要的环节,是实现智能答疑功能的基础。知识库的最初建立是由相关任课教师来完成的,随着学生不断提出新的问题,由教师和管理员来进行知识的添加、维护或者删除。智能答疑系统是一个具有知识记忆、数据计算统计、逻辑推理、知识学习和实现友好人机交互的智能系统,其本质就是一个具有智能性的知识系统。它支持自然语言的提问,可以自动检索问题并呈现有效答案,还能够通过学习来自动扩展和更新答案知识库。它的这些特点,使学习者在学习时能够使用自己熟悉的方式表达问题,并能够及时获得与问题较为相关的一些反馈答案。
  对知识库的自动扩展更新实际上就是对知识库资源的特殊维护,也是涉及人工智能的很多范畴,本模块的内容有可待进一步深探。
  4 结束语
  在开放教育教学模式下,学习者通过个人学习资源共享模块进行有效的获取学习资源,这个模块集中了所有用户所共享的个人资源,用户可以通过搜索的方式来查看自己感兴趣的资源。用户可以通过自动搜索答案的形式来寻找问题的答案,如果遇到新问题,还可以通过自动更新扩展知识库的模块来增加搜索信息量。这种智能答疑模式对于学习者来说是一种直接、快速、有效的学习方式,更是深入理解网络教学系统开发的理论基础和关键技术,对今后开放教育网络教学有重要作用。
  参考文献:
  [1]王锦红、李梅,我国网络教育的现状及对策研究[J].科学教育论坛,2005,20(6):15-20.
  [2]黄玉,发展网络教学面临的问题与策略[J].合肥工业大学学报,2005,19(2):25-27.
  [3]高波、陆文杰,网络教学模式形成的理论研究[J].河北大学学报,2005,10(4):10-15.
其他文献
物理所等在新型铁基超导体高压研究中取得进展  最近,中科院物理研究所/北京凝聚态物理国家实验室(筹)超导实验室赵忠贤院士课题组孙力玲研究员和博士生郭静及其合作者,与美国卡内基研究院地球物理实验室毛河光院士、陈晓嘉博士等合作,在新型铁基超导体高压研究方面取得新进展。该项研究结果发表在近期的《物理评论快报》上[PRL 108,197001(2012)]。  超导电性是物质在较低温度下呈现出的一种宏观量
期刊
UC优视CEO俞永福在移动浏览器领域征战了8年,对浏览器市场的态度表现得越来越坚定,他计划未来5年之内将UC打造成一个超过10亿用户的移动互联网入口服务平台。  俞永福看到的是一个全球共享的市场。根据瑞典IT服务公司Pingdom的报告,截至2011年年底,全球手机用户注册数已达59亿,全球消费者购买智能手机的速度几乎超过了厂商的生产速度。  同时,越来越多的用户会通过浏览器到达目的地游戏、信息、
期刊
三大新兴产业集群建设快马加鞭  为了发展好三大新兴产业集群,鞍山市出台产业园区优惠政策,吸引企业入驻、吸引人才入企。  如今,在鞍山市市区的东北部,一个规划面积28.11平方公里的辽宁(鞍山)激光科技产业园正在兴建中。未来,这里将成为国内最大的激光产业园区,目标产值高达1000亿元。  近两年,按照省委省政府的部署,鞍山市在重点发展钢铁深加工、菱镁新材料和矿产品深加工、装备制造业、轻纺和化工新材料
期刊
4月24日,第十四期“科学家与媒体面对面”在中国科技会堂举行,此次活动的主题为“稀土与我们的日常生活”。与会专家和学者对稀土的基本知识、在日常生活中的应用、稀土资源情况以及未来发展趋势做了详尽地介绍,并针对当前公众关注的热点问题与媒体工作者展开了研讨,同时纠正了大众对于稀土的一些不正确认识。  大众对稀土的不正确认识  稀土不稀,稀土也不是土,而是17个元素的总称。一听稀土,大家惯以为是单一的一个
期刊
全国学会科技奖励工作培训班在北京举办  为了促进中国科协所属全国学会的科技奖励工作,充分发挥学会社会力量奖励工作在创新型国家建设中的作用,提升学会开展科技奖励工作的能力和水平,4月24日,由中国科协学会学术部主办的全国学会科技奖励工作培训班在北京举办。来自121个全国学会的130余名全国学会副理事长、秘书长、副秘书长以及从事学会科技奖励工作的负责人参加了培训。本次培训班由学会服务中心承办,学会服务
期刊
Computing)是在2007年第3季度才诞生的新名词,它是在信息技术进步和应用需求拉动两方面成熟的条件下逐渐演化而来的。从最基本的层面来说,云计算是一种信息服务的交付和使用模式,即通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是IT基础设施(硬件、平台、软件),也可以是任意其他的IT服务。云计算采用基于资源虚拟化的方式,实现计算与存储的分布式与并行处理,使用户能够按需获取计算力、存储
期刊
商业企业运营信息化系统的设计,技术本身并不是最重要的问题,甚至不是一个问题,更重要的问题,或者说最主要的问题是对商业企业的行为活动的深刻洞察与理解,涵盖了从需求分析到开发编码的知识传递过程。笔者认为,领域驱动设计(Domain-Driven Design)模式作为一种高效率的需求分析方法、领域设计方案和易沟通的知识传递方式,对商业企业业务运营系统的开发尤其适用,以下将以电信运营业BSS(Busin
期刊
相比较常规布局,飞翼具有高升低阻、气动一体化等优点,但同时,其操纵舵面效率低下,起降性能差。本文研究的小型飞翼无人机,在保持飞翼良好的巡航能力的同时,具有短距起降能力。为了具有短距起降能力,在飞翼的机身前部重心之前利用涵道风扇产生直接力,通过力和力矩两方面提升起降性能。同时后缘襟翼等辅助设计,起到提升起降能力作用。飞翼降落低速时气动特性将发生变化,本文将分析加入这些设计后的飞翼降落低速时纵向动态特
期刊
随着电网的快速发展,电网的短路容量也越来越大。随着500kV变电站的陆续投运,电网如按全合环方式运行,部分变电站母线的短路电流可能超过断路器的额定遮断容量,因此电网必须分层分区运行。传统的环路操作事先需进行专门的计算,并由运行人员按规定顺序实施操作,操作时间较长。分层分区供电后,使得110kV等低级电网的合环必须通过500kV系统构成回路,有可能造成穿越功率增加,超过继电保护整定允许的限值,使合环
期刊
随着人类一次能源短缺和环境污染逐步加重,为了实现能源和环境的可持续发展,全球都将光伏发电作为发展重点。截止到2011年底,我国光伏发电系统累计装机容量约3.4GW,按我国“十二五”光伏发展规划,2012年至2015年每年还会增加装机容量5GW,其中多数是大中型并网光伏电站。
期刊