基于知识树的智能答疑系统的设计与实现

来源 :中国教育信息化·高教职教 | 被引量 : 0次 | 上传用户:ufo0101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:本文分析了旧的智能答疑系统的设计策略,并针对旧系统的几个关键不足之处,运用知识树关联规则和数据挖掘以及LateX语法等技术,提出并实现了新的智能答疑系统,并给出了完整的调查数据,证明了系统的智能性以及可用性的显著提高。
  关键词:智能答疑 LateX语法 知识树 MathType
  中图分类号:TP311 文献标识码:B 文章编号:1673-8454(2008)19-0072-04
  
  一、引言
  
  目前国内外对于人工智能以及智能化技术在教学领域中的应用已有相当的研究与实践,也有了很多优秀的智能答疑系统,其中具有代表性的有美国麻省理工大学(MIT)开发的Start,美国AskJeeves 公司开发的智能检索系统AskJeeves for Kids,以及香港科技大学参考AskJeeves开发的中文提问式搜索引擎Weniwen,但绝大多数还存在很多问题,具体表现在:
  (1)系统的性能不高,特别是答疑分词的速度慢。由于采用较大的关键词分词词库,每次提问都可能要对问题进行大量的匹配。在同一时间用户提问太多的情况下,系统的数据库查询响应时间过长,长时间的等待使用户很可能失去耐心而导致系统失去原有的效果。
  (2)系统的智能化程度不高,国内具备智能答疑能力的系统大多采用根据用户输入进行文本全文搜索关键字,从而获取答案返回给用户。这样的方式因为缺乏对自然语言的理解以及关键字的不全面而使得返回的答案往往与用户需要的答案有一定的出入,且由于不加以智能筛选而返回用户太多相关信息,也影响了系统的有效性。
  (3)系统不具备自我完善功能,任何智能答疑系统在设计之初是经过教研专家的教研设计的,但无论多细致的设计都不可能完美无缺,更不可能与时俱进地适应不断发展的教学的需要,以往的答疑系统在运行过程中专家定期会对系统做出信度和效度的评估,并逐步完善知识库的内容。但这项工作极为复杂,工作量巨大且容易出错,系统不具备自我升级的能力。
  (4)最容易被忽视的一点是:绝大多数答疑系统片面地关注用户提问后如何检索答案以及智能回答等解答环节的问题,而忽视了用户对系统提问是整个系统运作的第一步。绝大多数答疑系统对用户提问都采取的是纯文字方式的提问,少数可以在提问中插入图片以及多媒体等文件。但这样不能满足用户的提问要求,特别对于理工科学生的提问以及在校初高中学生的提问,经常需要用到公式才能说明问题。而绝大多数答疑系统并没有提供网页上的公式输入,导致用户无法准确地表达自己的问题,或只能麻烦地把公式做成图片贴在网页上。这样,提问都出现问题,检索相关答案更加无从说起,因为无法检索到与某个公式相关的答案,制约了系统的智能化程度。
  我们自主研发的智能答疑系统针对目前国内外智能答疑系统存在的问题,借鉴了国外先进智能答疑系统的成功经验,在问题模式匹配、知识库设计等方面皆使用了我们自主研究的智能化技术,并在问题输入这一环节上人性化地解决了公式输入的问题,使其具有一定的技术优势。
  
  二、系统的总体框架
  
   系统的总体框架可分为5大部分:数据库指标体系、问题处理与检索答案模块、数据库维护与成长模块、系统反馈功能模块、后台管理模块。图1为答疑系统基本架构图。
  
  3.数据库维护与成长模块
   在智能答疑系统中,随着系统使用时间与次数的增加,问题与答案数据均成几何级增长。虽然最初系统的答案库已经足够庞大,也无法应付日益增长的提问的需要。如何从已有问题和答案数据中挖掘某些内涵答案信息,是需要妥善解决的问题。为了保证系统的全面性,我们使用微软发布的Analysis Services数据挖掘引擎对系统的三个关联提问与回答的知识库进行数据挖掘分析,以此发掘隐含的关键词信息以及用户(特别是学生用户)的知识点掌握情况,此三个知识库为:
  (1)待解问题库TIWEN,用于存储提问未到期但系统无最佳答案,用户等待别的专家或用户人工答题的数据;
  
  (2)疑难问题库OldTIWEN,用于存储提问到期后无用户满足的最佳答案的提问数据,到期时间设定为提问后15天;
  (3)最佳答案库HuiDa,用于存储用户选择了最佳答案、已经结贴的提问与回答数据。
  数据挖掘算法选择微软发布的Microsoft Decision Trees。
  根据前述,用户提问后,系统会查询数据库并产生一系列的相关问题作为一个集合Q,并进行分层次的查询并将答案返回给用户。如果问题仍然待解,则进行不确定环境下的推理,根据Microsoft Decision Trees建立对答疑推理的概率决策树,它的特点是以概率表示答案是否是正确答案的不确定性,树中每个节点代表一个层次的答案节点,本系统选定的节点的主观先验概率为0.50,即:P正确=P错误=0.50。
  显而易见,我们采用概率统计中的Desperation法(绝望法),平均分配了先验概率。认为此答案是正确或错误的可能性均为50%。从用户第一次提问出发,数据库不断接收用户层所发送的查询信息或最佳答案设置信息,不断细化查询。参照父节点,不断生成子节点,整个推理过程就是一棵推理决策树,由图3表示(找到最佳答案为“是”,暂时没找到为“否”)。
  用户通过提问区提出问题后,查询出现第一层次相关问题,假定某一个节点(即某一个相关问题)此刻面临1个概率事件:该问题的答案是否是用户提问的满意答案?此时,决策树初始化,建立根节点(初始事件)P正确=?此时后台程序按照我们先前所述的机制,设置P正确=P错误=0.50,等待用户进一步操作响应,这时有了两种可能:
  
   此模块用于管理员对整个答疑系统进行查看管理,我们对整个答疑系统的后台做了详细的设计与研发,做到了全动态管理,在此不赘述。
  
  四、系统数据库统计数据与运行结果评价
  
  1.数据库统计数据
  数据库答题按篇、章、节点、层次分布统计,这里限于篇幅,不给出每章每节统计数据,只按大学物理(1)和大学物理(2)分类显示统计数据(见表1、2,图4、5)。
  2.运行结果评价
  本智能答疑系统采用.net技术完成主体框架,数据库和数据仓库采用MS SQL Server2000,界面美观大方,用户交互能力强,目前在湖南大学物理与微电子学院试运行,初期系统中只包含了大学物理各章节的专家知识,就目前来看,运行情况良好。学生提出的问题都能准确解答,对于包括复杂公式推导、纯公式运算等问题也能正确找到类似的相关问题给以启发性解答,特别是本系统具有数据自动学习能力,知识库会随着提问与回答的增长处于不断更新完善的状态,提高了系统的信度和效度。在使用讨论区里,每日平均在线学生达50人/次,评价良好。
  
  五、结束语
  
  本文对网络教学中智能答疑系统的设计与研发进行了深入的研究。本智能答疑系统具有个性化的特点,依靠数据挖掘发现用户与系统本身隐含的关系,不断地修补系统知识库内容,在一定程度上弱化了课程专家在系统中的维护作用。目前该系统的领域知识还在不断完善中,其将在实践中不断改进。
  
  参考文献:
  [1]Claude Seidman著.刘艺,王鲁军,蒋单单等译.SQL Server 2000数据挖掘技术指南[M].北京:机械工业出版社,2004(3).
  [2]张来希.基于Web的远程教学平台的设计与实现[J].中国教育技术装备,2007(5).
  [3]姜少峰,朱群雄.Bayesian 推理在远程答疑专家系统中的应用[J].北京化工大学学报,2003(6).
  [4]苏群,申瑞民,王武.基于知识树的概化预处理和关联模式挖掘的智能答疑模型[J].计算机工程,2006(17).
其他文献
解决学生行为问题是教师重要的日常工作,也是学生健康发展的重要保障。以教师对学生行为问题的描述、判断标准及标准形成的影响因素为主要内容进行研究。通过对33位小学教师
本文从本地本校的教学实际着眼,在教学管理目标.教学管理内容、教学管理运行以及教学管理策略等方面,深入探索促进农远工程应用的内涵和途径,在强化教学管理中解决现实应用存
在当今的信息社会里,网络文化已融入到校园文化之中,成为校园文化不可分割的一部分。本文通过对新时期网络文化及其特征的剖析,论述了网络文化与校园文化的交融性和异化现象,提出