论文部分内容阅读
摘要:教师答疑功能作为远程教育中不可或缺的一环,一直是现有研究的热点。该文设计了一种新型的自动问答系统能够克服传统的教师答疑受约束于时空限制,人力成本投入过大的缺点。同时系统融入了移动学习的理念,对提升用户学习兴趣,增加用户使用粘度,加大用户自主学习性等都具有较大帮助。测试证明,该文提出的自动问答系统有着回答准确度高,易于二次推广和用户使用粘度强等优点,有一定的社会应用价值。
关键词:自动问答;网络教学;移动学习
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)21-0081-02
1 概述
随着互联网技术的快速发展,在线远程教育的方式方法正在不断推进。传统的远程教育模式大多已经不能适应新的网络环境下的教学需求。其中教师答疑作为教学活动中不可或缺的一环一直是远程教育研究中的热点,如何高效人性化提供教师答疑需求是目前急需解决的课题。自动问答技术正是突破目前远程教育方式的一系列缺陷的关键技术。自动问答技术相比于传统的答疑技术(比如聊天室、讨论版以及电子邮件等)和主流的搜索引擎的优势在于:首先答疑活动不受时空环境约束,问答系统的构建基于人工智能技术,避免答疑教学中的教师人力成本过高;其次,用户得到的答案是一个或几个明确简洁的答案文本,提问时不需要把问题分解成关键字,无技术门槛[1]。目前已有许多不同专业领域和开放域的自动问答系统,具体包括聊天机器人、基于知识库的自动问答系统、问答式检索系统和基于文本的自动问答系统等不同种类,其中侯丽敏等人构建一个基于中文FAQ的面向特定课程的教学问答系统[2],田峰文等人开发了一个基于句子相似度模型的集装箱知识自动问答系统[3]。特别注意到文献[4]将自动问答技术和社交网络技术相融合,构建了一个社会化自动问答系统,解决了传统自动问答技术答案库构建成本高,对发展较快的特定领域出现答案知识滞后等一系列缺点。本文在文献[4]的基础上进一步将自动问答和移动学习相融合,旨在实现一个能够随时随地为学生提供自动问答服务的网络教学平台。能够使使用者充分利用碎片化时间,实现以人为中心,以学习任务本身为焦点的学习模式,为泛在学习的实现提供技术保障。
据中国互联网络信息中心发布《第37次中国互联网络发展状况统计报告》称,截至2015年12月,我国网民中使用手机上网的比例为90.1%,手机上网网民的数量已经接近7亿,可以看到,基于移动学习的远程教学模式具有极大的研究空间和前景。移动学习是一种在移动设备帮助下的能够在任何时间、任何地点发生的学习,移动学习使用的移动计算设备必须能够有效地呈现学习内容并且提供教师与学习者之间的双向交流。其主要的优点包括:1) 便携性。移动学习的首要特征是便携性数字媒体,这是移动学习有别于其它学习类型的本质特征之一;2) 高可用性。高可用性指的是移动学习能够随时随地打开使用,这是与传统PC有所区别的本质特征之一;3) 个体自主性。学习者可以随时随地学习,并可以根据自身需求,设置学习目标,学习效率更高[5]。
2 系统功能设计
本系统针对《计算机网络》课程开发,根据该课程对自动问答服务的具体需求,系统的主要工作流程如图1,用户通过自然语言向系统提问,系统对用户提问进行分词、去除停等词等预处理后,提交自动问答模块实现答案检索,并按照提问/答案匹配度对提供的答案实现排序,将排名前5的答案依序提供给用户。如果匹配度低于系统设阈值或检索不到答案则告知用户无法回答问题。并同时将该问题开放给其他用户回答,从而实现社会化问答功能。同时提问用户对系统提供的答案进行点评,如果用户不满意,也将该问题开放给其他用户回答。系统具体分为四个功能模块:用户信息模块、自动问答模块、问题开放模块和教师维护模块。
2.1 用户信息模块
该模块主要保留用户的个人信息记录已经该用户参与社会化问答过程的历史记录。同时系统会根据用户的历史提问记录,提供相应的知识模块推荐给用户学习。
2.2 自动问题模块
该模块实现本系统的主要功能。针对用户的自然语言提问,基于VSM(Vector Space Model)模型[6]在答案库中检索。答案库中的备选答案采用共现词特征表示,问题和答案的匹配程度采用向量内积计算。如果匹配值超过系统设定阈值,则依序返回给用户提问界面。否则,直接将该问题发送到问题开放模块处理。
2.3 问题开放模块
考虑到答案库不完备性和自动问答技术本身的缺点等因素,所以设计问题开放模块。主要参考现有的社会化问答应用模式。针对以下两种情况:1)系统无法提供答案;2)用户对系统提供的答案不满意。此时,用户提问将会被开放给所有的用户实现人工回答(系统对于回答者会标注教师或者学生身份供提问者参考)。同时所有用户可以对回答实现“赞同/反对”两种方式点评。对于高赞同问答对,会反馈到教师维护模块使用。
2.4 教师维护模块
教师维护模块的主要功能是对问答模块的答案库实现维护。当发生以下两种情况时需要教师维护答案库:1)大量同类问题系统无法检索出答案或者系统检索出的答案用户基本不满意;2)开放出的问题的回答赞同/反对比以及赞同数同时超过一定的阈值。上述两类情况发生时,会在教师用户信息中给予提示,教师可以在维护模块中更新或扩充答案库。
3 系统开发和实现
根据第3节所述的系统各模块功能,下面重点介绍基于移动学习的自动问答系统的体系结构和关键技术实现。
3.1系统体系结构
为了增加系统的可扩展和可维护性。自动问答系统采用三层架构设计思想来实现各个模块之间的独立性和低耦合性,并利用Web Service实现系统前后端之间的数据连接。Web Service技术能使得运行在不同终端上的不同应用无须借助第三方软硬件, 就可相互交换数据。本文使用Web Service最主要的原因是可以实现前后端的系统异构性,服务器和移动客户端分属不同的系统。 3.2 系统开发
本系统的服务器端采用Visual Studio 2013开发,数据库采用微软的SQL Server 2012。采用C#语言实现Web Service编程,并发布到IIS服务器上。客户端考虑基于Android的移动终端,采用MyEclipse2014开发工具,采用JAVA语言开发客户端程序。服务器端和移动客户端的数据交互格式采用JSON(JavaScript Object Notation)格式。
3.3 关键技术实现
本系统核心模块为自动问答模块,问答模块的准确率和召回率的高低对系统自身性能的影响至关重要。系统采用目前主流的基于答案库的模式来实现自动问答功能。下面主要介绍下问题分析和答案检索等技术的实现细节。
3.3.1问题分析
自动问答模块首先对于用户的提问采用自然语言处理技术进行预处理,包括中文自动分词、去除停等词和文本去噪等工作。然后采用传统的VSM模型来表示用户提问,具体的表示如公式(1)所示:
3.3.2答案检索
答案库中答案的处理方式同样考虑VSM模型。在权重的处理方式上,除了基于TF-IDF方法计算,同时考虑共现词方法来计算特征表示。所谓共现词是指在同一窗口单元(句、段或者一篇文章)中共同出现的2个词语。它忽略了词语的位置及先后顺序,只要2 个词在同一语境单元中出现,则认为它们共现一次。如果两个词经常出现在同一窗口单元,则可以认为这两个词语义相关度高,对文档主题的贡献程度大。两个词之间的共现程度采用互信息值来表示。
由于自动问答模块中对于提问和回答的文本都采用向量形式处理,所以在计算问题和答案的匹配度是直接利用向量内积的来计算向量之间的相似度。
4 系统测试
我们针对《计算机网络》这一课程开发了基于移动学习的自动问答系统。系统的运行界面如图2所示。
对系统性能的评判采用TREC会议的计算公式来度量自动问答功能的准确率,计算公式如式(2)所示[8]。
对每个提问系统按照提问/答案匹配度依序提供5个答案,如果答案是正确的,每个答案的得分依次为(1,1/2,1/3,1/4,1/5)测试结果如表1所示。测试用户数为60人,每个用户在测试中均向问答系统用自然语言提问10个问题,最后对于全部用户平均计算测试得分,测试结果平均等分为8.5分。可以看出本系统具有较高的准确率。
同时本系统在开放问题模块融合了社会化问答技术,在客户端实现上采用了移动学习的理念。这两个方面都有助于用户自主学习,对提高用户兴趣,增加用户粘度有着较大的帮助。我们对于单个用户在系统的一周访问时间做出了统计。系统的测试总用户数为60人,测试时间为2个月。经过统计发现单个用户的一周平均使用时间为148分钟。相当于1周3个学时的使用量,可以看出对增加用户粘度具有一定的帮助。
5 结束语
本文设计的基于移动学习的自动问答系统对于现有的远程教育研究同时具有理论意义和实际应用意义。本自动问答系统具有实现简单、准确率高、用户自主学习性高等优点。同时本系统虽然是根据《计算机网络》这一特定课程开发,但开放了对其他课程应用的接口,所以系统的可移植性高,应用前景较好。现有系统是根据Android客户端开发,在未来的应用中可以考虑在其他客户端系统中做出进一步的研究和实现。
参考文献:
[1] 王树西. 问答系统:核心技术、发展趋势[J]. 计算机工程与应用,2005,41(18):1-3.
[2] 侯丽敏, 张永强. 面向课程的中文 FAQ 自动问答系统模型[J]. 计算机与现代化, 2014 (10): 20-24.
[3] 田峰文, 张琳. 一个集装箱知识自动问答系统的设计[J]. 现代计算机, 2015 (11): 32-35.
[4] 钱强, 钱萍, 滕玮, 等. 基于自动问答的类社交网络辅助学习平台[J]. 江苏科技大学学报:自然科学版,2014,28(6): 590-595.
[5] 张田, 李子运, 汪晴晴. 基于云计算的移动学习资源开发初探[J]. 现代教育技术, 2012, 22(11): 59-61.
[6] Salton A.Wong and C.S.Yang.A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1975,18(5):613-620.
[7] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. the Journal of machine Learning research, 2003, (3): 993-1022.
[8] 黄昌宁. 从IBM深度问答系统战胜顶尖人类选手所想到的[J]. 中文信息学报,2011,25(6):21-25.
关键词:自动问答;网络教学;移动学习
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)21-0081-02
1 概述
随着互联网技术的快速发展,在线远程教育的方式方法正在不断推进。传统的远程教育模式大多已经不能适应新的网络环境下的教学需求。其中教师答疑作为教学活动中不可或缺的一环一直是远程教育研究中的热点,如何高效人性化提供教师答疑需求是目前急需解决的课题。自动问答技术正是突破目前远程教育方式的一系列缺陷的关键技术。自动问答技术相比于传统的答疑技术(比如聊天室、讨论版以及电子邮件等)和主流的搜索引擎的优势在于:首先答疑活动不受时空环境约束,问答系统的构建基于人工智能技术,避免答疑教学中的教师人力成本过高;其次,用户得到的答案是一个或几个明确简洁的答案文本,提问时不需要把问题分解成关键字,无技术门槛[1]。目前已有许多不同专业领域和开放域的自动问答系统,具体包括聊天机器人、基于知识库的自动问答系统、问答式检索系统和基于文本的自动问答系统等不同种类,其中侯丽敏等人构建一个基于中文FAQ的面向特定课程的教学问答系统[2],田峰文等人开发了一个基于句子相似度模型的集装箱知识自动问答系统[3]。特别注意到文献[4]将自动问答技术和社交网络技术相融合,构建了一个社会化自动问答系统,解决了传统自动问答技术答案库构建成本高,对发展较快的特定领域出现答案知识滞后等一系列缺点。本文在文献[4]的基础上进一步将自动问答和移动学习相融合,旨在实现一个能够随时随地为学生提供自动问答服务的网络教学平台。能够使使用者充分利用碎片化时间,实现以人为中心,以学习任务本身为焦点的学习模式,为泛在学习的实现提供技术保障。
据中国互联网络信息中心发布《第37次中国互联网络发展状况统计报告》称,截至2015年12月,我国网民中使用手机上网的比例为90.1%,手机上网网民的数量已经接近7亿,可以看到,基于移动学习的远程教学模式具有极大的研究空间和前景。移动学习是一种在移动设备帮助下的能够在任何时间、任何地点发生的学习,移动学习使用的移动计算设备必须能够有效地呈现学习内容并且提供教师与学习者之间的双向交流。其主要的优点包括:1) 便携性。移动学习的首要特征是便携性数字媒体,这是移动学习有别于其它学习类型的本质特征之一;2) 高可用性。高可用性指的是移动学习能够随时随地打开使用,这是与传统PC有所区别的本质特征之一;3) 个体自主性。学习者可以随时随地学习,并可以根据自身需求,设置学习目标,学习效率更高[5]。
2 系统功能设计
本系统针对《计算机网络》课程开发,根据该课程对自动问答服务的具体需求,系统的主要工作流程如图1,用户通过自然语言向系统提问,系统对用户提问进行分词、去除停等词等预处理后,提交自动问答模块实现答案检索,并按照提问/答案匹配度对提供的答案实现排序,将排名前5的答案依序提供给用户。如果匹配度低于系统设阈值或检索不到答案则告知用户无法回答问题。并同时将该问题开放给其他用户回答,从而实现社会化问答功能。同时提问用户对系统提供的答案进行点评,如果用户不满意,也将该问题开放给其他用户回答。系统具体分为四个功能模块:用户信息模块、自动问答模块、问题开放模块和教师维护模块。
2.1 用户信息模块
该模块主要保留用户的个人信息记录已经该用户参与社会化问答过程的历史记录。同时系统会根据用户的历史提问记录,提供相应的知识模块推荐给用户学习。
2.2 自动问题模块
该模块实现本系统的主要功能。针对用户的自然语言提问,基于VSM(Vector Space Model)模型[6]在答案库中检索。答案库中的备选答案采用共现词特征表示,问题和答案的匹配程度采用向量内积计算。如果匹配值超过系统设定阈值,则依序返回给用户提问界面。否则,直接将该问题发送到问题开放模块处理。
2.3 问题开放模块
考虑到答案库不完备性和自动问答技术本身的缺点等因素,所以设计问题开放模块。主要参考现有的社会化问答应用模式。针对以下两种情况:1)系统无法提供答案;2)用户对系统提供的答案不满意。此时,用户提问将会被开放给所有的用户实现人工回答(系统对于回答者会标注教师或者学生身份供提问者参考)。同时所有用户可以对回答实现“赞同/反对”两种方式点评。对于高赞同问答对,会反馈到教师维护模块使用。
2.4 教师维护模块
教师维护模块的主要功能是对问答模块的答案库实现维护。当发生以下两种情况时需要教师维护答案库:1)大量同类问题系统无法检索出答案或者系统检索出的答案用户基本不满意;2)开放出的问题的回答赞同/反对比以及赞同数同时超过一定的阈值。上述两类情况发生时,会在教师用户信息中给予提示,教师可以在维护模块中更新或扩充答案库。
3 系统开发和实现
根据第3节所述的系统各模块功能,下面重点介绍基于移动学习的自动问答系统的体系结构和关键技术实现。
3.1系统体系结构
为了增加系统的可扩展和可维护性。自动问答系统采用三层架构设计思想来实现各个模块之间的独立性和低耦合性,并利用Web Service实现系统前后端之间的数据连接。Web Service技术能使得运行在不同终端上的不同应用无须借助第三方软硬件, 就可相互交换数据。本文使用Web Service最主要的原因是可以实现前后端的系统异构性,服务器和移动客户端分属不同的系统。 3.2 系统开发
本系统的服务器端采用Visual Studio 2013开发,数据库采用微软的SQL Server 2012。采用C#语言实现Web Service编程,并发布到IIS服务器上。客户端考虑基于Android的移动终端,采用MyEclipse2014开发工具,采用JAVA语言开发客户端程序。服务器端和移动客户端的数据交互格式采用JSON(JavaScript Object Notation)格式。
3.3 关键技术实现
本系统核心模块为自动问答模块,问答模块的准确率和召回率的高低对系统自身性能的影响至关重要。系统采用目前主流的基于答案库的模式来实现自动问答功能。下面主要介绍下问题分析和答案检索等技术的实现细节。
3.3.1问题分析
自动问答模块首先对于用户的提问采用自然语言处理技术进行预处理,包括中文自动分词、去除停等词和文本去噪等工作。然后采用传统的VSM模型来表示用户提问,具体的表示如公式(1)所示:
3.3.2答案检索
答案库中答案的处理方式同样考虑VSM模型。在权重的处理方式上,除了基于TF-IDF方法计算,同时考虑共现词方法来计算特征表示。所谓共现词是指在同一窗口单元(句、段或者一篇文章)中共同出现的2个词语。它忽略了词语的位置及先后顺序,只要2 个词在同一语境单元中出现,则认为它们共现一次。如果两个词经常出现在同一窗口单元,则可以认为这两个词语义相关度高,对文档主题的贡献程度大。两个词之间的共现程度采用互信息值来表示。
由于自动问答模块中对于提问和回答的文本都采用向量形式处理,所以在计算问题和答案的匹配度是直接利用向量内积的来计算向量之间的相似度。
4 系统测试
我们针对《计算机网络》这一课程开发了基于移动学习的自动问答系统。系统的运行界面如图2所示。
对系统性能的评判采用TREC会议的计算公式来度量自动问答功能的准确率,计算公式如式(2)所示[8]。
对每个提问系统按照提问/答案匹配度依序提供5个答案,如果答案是正确的,每个答案的得分依次为(1,1/2,1/3,1/4,1/5)测试结果如表1所示。测试用户数为60人,每个用户在测试中均向问答系统用自然语言提问10个问题,最后对于全部用户平均计算测试得分,测试结果平均等分为8.5分。可以看出本系统具有较高的准确率。
同时本系统在开放问题模块融合了社会化问答技术,在客户端实现上采用了移动学习的理念。这两个方面都有助于用户自主学习,对提高用户兴趣,增加用户粘度有着较大的帮助。我们对于单个用户在系统的一周访问时间做出了统计。系统的测试总用户数为60人,测试时间为2个月。经过统计发现单个用户的一周平均使用时间为148分钟。相当于1周3个学时的使用量,可以看出对增加用户粘度具有一定的帮助。
5 结束语
本文设计的基于移动学习的自动问答系统对于现有的远程教育研究同时具有理论意义和实际应用意义。本自动问答系统具有实现简单、准确率高、用户自主学习性高等优点。同时本系统虽然是根据《计算机网络》这一特定课程开发,但开放了对其他课程应用的接口,所以系统的可移植性高,应用前景较好。现有系统是根据Android客户端开发,在未来的应用中可以考虑在其他客户端系统中做出进一步的研究和实现。
参考文献:
[1] 王树西. 问答系统:核心技术、发展趋势[J]. 计算机工程与应用,2005,41(18):1-3.
[2] 侯丽敏, 张永强. 面向课程的中文 FAQ 自动问答系统模型[J]. 计算机与现代化, 2014 (10): 20-24.
[3] 田峰文, 张琳. 一个集装箱知识自动问答系统的设计[J]. 现代计算机, 2015 (11): 32-35.
[4] 钱强, 钱萍, 滕玮, 等. 基于自动问答的类社交网络辅助学习平台[J]. 江苏科技大学学报:自然科学版,2014,28(6): 590-595.
[5] 张田, 李子运, 汪晴晴. 基于云计算的移动学习资源开发初探[J]. 现代教育技术, 2012, 22(11): 59-61.
[6] Salton A.Wong and C.S.Yang.A Vector Space Model for Automatic Indexing[J].Communications of the ACM,1975,18(5):613-620.
[7] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. the Journal of machine Learning research, 2003, (3): 993-1022.
[8] 黄昌宁. 从IBM深度问答系统战胜顶尖人类选手所想到的[J]. 中文信息学报,2011,25(6):21-25.