论文部分内容阅读
在自适应学习系统中,由于学习者的学习特征众多,数据库系统是一个庞大的数据资源,每天都会有大量的记录存储到数据库中,其中可能会包含一些重复的、无关紧要的、甚至是相互矛盾的记录。另外当前教育学专家对影响学生学习的特征的说法不一,造成教育学领域对学习者特征的评判没有统一的标准。因此,需要对大量的学习者的学习日志进行统计分析,找出对学习者影响最大、最具诊断意义的学习特征。本文以自适应学习系统为背景,利用人工数据合成工具生成实验数据,研究出一个适合于自适应学习系统的关联挖掘算法,并将此挖掘算法应用于自适应系统中,逐步纠正自适应学习系统中学习者特征模型,使学习者更好地利用系统进行学习。根据自适应学习系统学习者特征的特点,本文对FP-Tree算法进行了改进。首先从算法自身进行改进,针对频繁项集过多的问题,提出在FP-growth的基础上进行改进的关键项抽取算法KEFP-growth,忽略了在分析时不关心的频繁项集。接着从数据源方面进行了改进,针对数据源过大导致挖掘效率低下甚至无法在内存中加载FP-Tree的问题,本文提出数据投影算法,就是采用分而治之的思想,对数据库频繁1-项集分割成各个频繁1-项集的数据库子集,然后分别对数据库子集进行挖掘,再将其合并。最后将KEFP-growth算法和投影算法相结合,这样既可以消除无意义的频繁项的挖掘,又可以在大数据量时候又能对数据进行划分。本文还通过实验比较了三种改进算法以及原FP-Tree算法的性能,实验表明采用KEFP-growth算法和数据库投影算法相结合的算法最适合于自适应学习系统的学习者特征的挖掘。本文基于改进的FP-Tree的算法成功地完成了自适应学习学习者特征建立挖掘的相关性研究,也为自适应学习系统的知识发现提供了进一步的研究思路。