论文部分内容阅读
摘 要:随着计算机技术和网络的飞速发展,基于流媒体的学习支持系统成为学习者重要的学习方式,此类系统拥有一定规模的访问数据,本文充分利用数据挖掘技术发现学习者的特征和流媒体被访问情况,提出了如何构建基于流媒体课外学习的数据挖掘系统,以及该系统的应用。
关键词:数据挖掘;流媒体
中图分类号:TP311.13
课外学习支持系统可以帮助学习者深入理解已学得的知识,解决模糊的问题,拓展知识面,培养学习的自主性。以流媒体的形式传输学习内容很大程度上解决了网络带宽的问题。课外学习支持系统主要研究如何利用计算机化的电子工具帮助人们解决日常工作中碰到的问题,达到提高工作效率和效果的目的。它给学习者提供了自主学习的机会,学习者可以根据个人课堂学习的情况形成课内课外多渠道的立体学习方式。课外学习系统可以根据自身的需求,“定制”自己需要的信息,系统也会根据用户的需求、兴趣爱好、能力差异等特点,智能化的为用户选择对应的学习资源,提供智能化的学习指导。但是,此类系统大多存在一个问题,即在拥有一定访问量的情况下,系统并没有记录下使用者(学习者)的学习情况、学习效果及有关信息,以供教师分析研究。这造成了一种资源的浪费,因为无论是学习者主动留下的或是系统自动记录下的信息都可能是影响学习者学习效果和效率的一种因素。
本系统构想以学习者主动填写表格以及系统自动记录两种形式将信息录入后台数据库,经过对数据的处理、分析和挖掘,发现数据中隐藏的信息。数据挖掘技术在系统中的应用,帮助教师找到隐藏的提高学习者学习效果的因素和方法,通过访问数据发现学生的习惯,兴趣,认知风格等,同时根据学生访问规律调整网站结构,动态的订制个性化的网站。
1 系统组成
系统主要由视频点播和数据处理两大块组成。视频点播部分又由服务器、网络传输和用户终端构成。其中媒体服务器使用高性能的PC服务器,其主要功能是完成流信息的发布;媒体工具机需要安装声卡、视频采集卡、VCD或录像机、Windows 7或Windows NT,并安装media编辑工具,其主要功能是完成流信息的采集、编辑、生成等功能,并将生成的ASF文件存放到存储服务器上;存储服务器安装Windows 2000 Server,并具有大容量存储设备。数据处理部分由用户终端和数据库、数据仓库部分构成。用户终端以网页的形式使用视频点播服务,系统将记录下学习者的各种信息,并录入数据库,提供给数据挖掘原始数据。
2 数据挖掘的应用
下面我们主要探讨系统中数据挖掘技术的应用。
数据挖掘又称为数据库中的知识发现,它通过对大量的历史存储数据进行分析和分类得出有意义的模式和关系的过程。数据挖掘的应用十分广泛,挖掘对象可以是关系的、事务的、面向对象的和对象-关系的数据仓库。按照挖掘的数据类型的不同,可以分为空间数据挖掘、时间序列数据挖掘、文本或多媒体数据挖掘以及网络数据挖掘。特别是网络数据挖掘,可以从用户使用网络的过程中发现用户的偏好,对发现学习者在学习过程中潜在的影响因素非常有效。
2.1 界面模块
界面模块是学习者使用系统并与系统进行交互的界面。通过它,学习者可以学习系统提供的知识内容,手动添加学习者信息。
2.2 信息收集模块
本系统试图收集收集使用者的两部份信息:使用系统的原因,学习特征。数据收集方式以学习者填写表格和系统自动收集为主。通过第一类方式,可以收集到学习者的姓名、性别、年龄、教育程度,使用系统的各种情况等等。通过第二种方式,系统可以自动记录学习者使用系统的时间,经常点播的内容等记录与学习相关的内容。
2.3 数据抽取模块
数据库中的数据需要在收集起来以后不能马上作为数据挖掘的对象,需要经过一定的例程转换、过滤并建立模型。这里我们将信息收集阶段的数据转换,建立星型模型,其中建立两个关联。
第一个关联是事实表的关联,事实表包含4个字段:用户ID、使用时间、最频繁使用资料、系统时间。其中事实表中的“最频繁使用资料”关联最频繁使用资料表,该表包含背景资料、导学资料、原理再现分析、学习进度计划、学习方法指导、参考文献或相关链接。事实表中的“使用时间”关联时间维度表,该表包含系统时间、年、月、日、时刻。
第二个关联是用户维度的关联,用户维度表包含6个字段:用户ID、姓名、性别、喜欢的学习环境、喜好的学习材料、思考习惯。其中“喜欢的学习环境”关联喜欢的学习环境表,该表包含独立空间、集体学习。“喜好的学习材料”关联喜好的学习材料表,该表包含文字材料、图文并茂材料、多媒体材料。“思考习惯”关联思考习惯表,该表包含:独立思考、共同讨论。
3 数据分析模块
在将数据进行转换、去噪,并利用模型建立可以进行数据挖掘的数据仓库后,我们使用关联规则分析数据。考虑到每个人对节目访问的时间长短和频度,我们对关联矩阵的行或列向量进行规一化处理。对关联矩阵的列向量进行规一化处理得到矩阵,矩阵列向量反映了该学习者对网站的各个网页的访问偏好情况,实际上表现了访问者类型。关联矩阵的每个行向量反映了所有访问者对某一个网页的访问情况,实际上蕴涵有访问者共同的访问模式。
课外学习系统可以通过机器学习来观察用户的行为,利用挖掘技术掌握之前的访问行为,从而预测今后的访问趋势,还能提供一个比较智能的服务体系及时了解学生的状况、需求、能力差异、学习进度、兴趣爱好等,以上的系统设计只是简单的提供简单的设计思路,如果想要进一步进行关联分析,聚类分析,统计分析应采用更加复杂和完善的一个系统工程。
4 结束语
在网络学习的环境中,重视学习者在学习过程中隐含的因素,挖掘并分析这些因素是目前网络环境学习研究中可以深入探索的一个方向。基于流媒体的课外学习支持系统不但提供了学习者自我学习的机会,同时也应该在后台对所有学习者进行分析归类。本文仅对数据挖掘在该系统中的应用进行了构想。其实,系统分析归类的结果应该作为学习者再次登陆后动态显示网页的依据,真正做到个性化的学习环境和学习服务,并提供因人而异的学习诊断和评价。总之数据挖掘技术将越来越成熟,我们相信数据挖掘将成为如何教学形式中不可或缺的最有效工具之一,在数据挖掘的技术支持下,教育系统工程的教学评估将上升到一个新的高度。
参考资料:
[1]Richard J.Roiger,Michael W.Geatz.翁敬农,译.数据挖掘教称[M].北京:清华大学出版社,2003.
[2]邓晖.论网络环境下的学生特征分析系统设计[J].开放教育研究,2003(01).
[3]严华云.Web挖掘在网络教育中的应用研究[J].湖州师范学院学报,2003(06).
作者简介:周磊,男,江苏无锡人,讲师,上海交通大学工程硕士,研究方向:数据挖掘、自然语言处理。
作者单位:无锡高等师范学校,江苏无锡 214153
关键词:数据挖掘;流媒体
中图分类号:TP311.13
课外学习支持系统可以帮助学习者深入理解已学得的知识,解决模糊的问题,拓展知识面,培养学习的自主性。以流媒体的形式传输学习内容很大程度上解决了网络带宽的问题。课外学习支持系统主要研究如何利用计算机化的电子工具帮助人们解决日常工作中碰到的问题,达到提高工作效率和效果的目的。它给学习者提供了自主学习的机会,学习者可以根据个人课堂学习的情况形成课内课外多渠道的立体学习方式。课外学习系统可以根据自身的需求,“定制”自己需要的信息,系统也会根据用户的需求、兴趣爱好、能力差异等特点,智能化的为用户选择对应的学习资源,提供智能化的学习指导。但是,此类系统大多存在一个问题,即在拥有一定访问量的情况下,系统并没有记录下使用者(学习者)的学习情况、学习效果及有关信息,以供教师分析研究。这造成了一种资源的浪费,因为无论是学习者主动留下的或是系统自动记录下的信息都可能是影响学习者学习效果和效率的一种因素。
本系统构想以学习者主动填写表格以及系统自动记录两种形式将信息录入后台数据库,经过对数据的处理、分析和挖掘,发现数据中隐藏的信息。数据挖掘技术在系统中的应用,帮助教师找到隐藏的提高学习者学习效果的因素和方法,通过访问数据发现学生的习惯,兴趣,认知风格等,同时根据学生访问规律调整网站结构,动态的订制个性化的网站。
1 系统组成
系统主要由视频点播和数据处理两大块组成。视频点播部分又由服务器、网络传输和用户终端构成。其中媒体服务器使用高性能的PC服务器,其主要功能是完成流信息的发布;媒体工具机需要安装声卡、视频采集卡、VCD或录像机、Windows 7或Windows NT,并安装media编辑工具,其主要功能是完成流信息的采集、编辑、生成等功能,并将生成的ASF文件存放到存储服务器上;存储服务器安装Windows 2000 Server,并具有大容量存储设备。数据处理部分由用户终端和数据库、数据仓库部分构成。用户终端以网页的形式使用视频点播服务,系统将记录下学习者的各种信息,并录入数据库,提供给数据挖掘原始数据。
2 数据挖掘的应用
下面我们主要探讨系统中数据挖掘技术的应用。
数据挖掘又称为数据库中的知识发现,它通过对大量的历史存储数据进行分析和分类得出有意义的模式和关系的过程。数据挖掘的应用十分广泛,挖掘对象可以是关系的、事务的、面向对象的和对象-关系的数据仓库。按照挖掘的数据类型的不同,可以分为空间数据挖掘、时间序列数据挖掘、文本或多媒体数据挖掘以及网络数据挖掘。特别是网络数据挖掘,可以从用户使用网络的过程中发现用户的偏好,对发现学习者在学习过程中潜在的影响因素非常有效。
2.1 界面模块
界面模块是学习者使用系统并与系统进行交互的界面。通过它,学习者可以学习系统提供的知识内容,手动添加学习者信息。
2.2 信息收集模块
本系统试图收集收集使用者的两部份信息:使用系统的原因,学习特征。数据收集方式以学习者填写表格和系统自动收集为主。通过第一类方式,可以收集到学习者的姓名、性别、年龄、教育程度,使用系统的各种情况等等。通过第二种方式,系统可以自动记录学习者使用系统的时间,经常点播的内容等记录与学习相关的内容。
2.3 数据抽取模块
数据库中的数据需要在收集起来以后不能马上作为数据挖掘的对象,需要经过一定的例程转换、过滤并建立模型。这里我们将信息收集阶段的数据转换,建立星型模型,其中建立两个关联。
第一个关联是事实表的关联,事实表包含4个字段:用户ID、使用时间、最频繁使用资料、系统时间。其中事实表中的“最频繁使用资料”关联最频繁使用资料表,该表包含背景资料、导学资料、原理再现分析、学习进度计划、学习方法指导、参考文献或相关链接。事实表中的“使用时间”关联时间维度表,该表包含系统时间、年、月、日、时刻。
第二个关联是用户维度的关联,用户维度表包含6个字段:用户ID、姓名、性别、喜欢的学习环境、喜好的学习材料、思考习惯。其中“喜欢的学习环境”关联喜欢的学习环境表,该表包含独立空间、集体学习。“喜好的学习材料”关联喜好的学习材料表,该表包含文字材料、图文并茂材料、多媒体材料。“思考习惯”关联思考习惯表,该表包含:独立思考、共同讨论。
3 数据分析模块
在将数据进行转换、去噪,并利用模型建立可以进行数据挖掘的数据仓库后,我们使用关联规则分析数据。考虑到每个人对节目访问的时间长短和频度,我们对关联矩阵的行或列向量进行规一化处理。对关联矩阵的列向量进行规一化处理得到矩阵,矩阵列向量反映了该学习者对网站的各个网页的访问偏好情况,实际上表现了访问者类型。关联矩阵的每个行向量反映了所有访问者对某一个网页的访问情况,实际上蕴涵有访问者共同的访问模式。
课外学习系统可以通过机器学习来观察用户的行为,利用挖掘技术掌握之前的访问行为,从而预测今后的访问趋势,还能提供一个比较智能的服务体系及时了解学生的状况、需求、能力差异、学习进度、兴趣爱好等,以上的系统设计只是简单的提供简单的设计思路,如果想要进一步进行关联分析,聚类分析,统计分析应采用更加复杂和完善的一个系统工程。
4 结束语
在网络学习的环境中,重视学习者在学习过程中隐含的因素,挖掘并分析这些因素是目前网络环境学习研究中可以深入探索的一个方向。基于流媒体的课外学习支持系统不但提供了学习者自我学习的机会,同时也应该在后台对所有学习者进行分析归类。本文仅对数据挖掘在该系统中的应用进行了构想。其实,系统分析归类的结果应该作为学习者再次登陆后动态显示网页的依据,真正做到个性化的学习环境和学习服务,并提供因人而异的学习诊断和评价。总之数据挖掘技术将越来越成熟,我们相信数据挖掘将成为如何教学形式中不可或缺的最有效工具之一,在数据挖掘的技术支持下,教育系统工程的教学评估将上升到一个新的高度。
参考资料:
[1]Richard J.Roiger,Michael W.Geatz.翁敬农,译.数据挖掘教称[M].北京:清华大学出版社,2003.
[2]邓晖.论网络环境下的学生特征分析系统设计[J].开放教育研究,2003(01).
[3]严华云.Web挖掘在网络教育中的应用研究[J].湖州师范学院学报,2003(06).
作者简介:周磊,男,江苏无锡人,讲师,上海交通大学工程硕士,研究方向:数据挖掘、自然语言处理。
作者单位:无锡高等师范学校,江苏无锡 214153