论文部分内容阅读
摘要;现如今大学生人数逐年在增多,就业压力也在逐年增大,获得含金量较大的证书无疑可以增大大学生就业的优势,CET-4证书就是其中的一种。从本校大学一年级学生教育学习情况调查问卷中,运用决策树C4。5算法进行数据挖掘,可以发现学生高考成绩、性别、对英语的学习态度、努力程度、与英语老师的关系和英语四级考试成绩之间潜在的关系。运用WEKA数据挖掘软件,可以很清晰直观的进行数据挖掘并分析出影响英语四级考试的因素,对高校英语教学有一定的指导意义。
关键词:WEKA软件;CET-4成绩;数据挖掘;决策树
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)07-0248-02
1引言
大學英语四级考试,即CET-4,College English Test Band4的缩写,是由国家教育部高等教育司主持的全国性教学考试。考试有一定的难度并且监考力度大,考试成绩具有很高的可信度,因此引起了高校中学生、老师和领导的高度重视。
学校每年都会进行在校大学生学习情况的调查,而这些数据仅仅是用在表面的数据查询,数据背后隐藏的有用信息并未被有效的挖掘出来。针对这个问题,利用WEKA数据挖掘软件中决策树J48(对C4.5进行了改进)算法,挖掘出学生高考成绩、性别、对英语的学习态度、努力程度、与英语老师的关系与CET-4成绩之间的潜在关系,分析出那些因素对CET-4成绩影响最大,从而总结出学习的规律,提高高校学生的CE’T-4成绩。
2WEKA软件
2.1WEKA数据挖掘软件介绍
Weka的全名是怀卡托智能分析环境(WaikatoEnvironment for Knowledge Analysis),是一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
2.2WEKA数据集格式AR]EF
ARFF(Attribute-Relation File Format)格式是一种ASCII文本文件,记录了具有共同属性的实例集。ARFF格式是数据挖掘软件WEKA所使用的文件格式。ARFF文件分为注释、关系名、属性名、数据域几大部分,注释用百分号开头%,关系名用@relation申明,属性用@attribute什么,数据域用@data开头。当数据是数值型,在属性名的后面加numeric,如果是离散值(枚举值),就用一个大括号将值域列出来。@data下一行后为数据记录,数据为矩阵形式,即每一个的数据元素个数相等,若有缺失值,就用问号?表示。
3C4.5数据挖掘算法
C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法ID3算法。分类决策树算法是从大量事例中进行提取分类规则的自上而下的决策树。
ID3算法的核心思想就是以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。
设D为用类别对训练元组进行的划分,则D的熵(entropy)表示为:
其中pi表示第i个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量除以训练元组元素总数量作为估计。熵的实际意义表示是D中元组的类标号所需要的平均信息量。
现在我们假设将训练元组D按属性A进行划分,则A对D划分的期望信息为;
而信息增益即为两者的差值:
C4.5算法继承了TD3算法的优点,并对ID3算法进行了改进:
C4.5算法首先定义了“分裂信息”,其定义可以表示成:
其中各符号意义与ID3算法相同,然后,增益率被定义为;
4CE4-4成绩挖掘与分析
4.1确定挖掘对象阶段
此次实验的数据来源于我校在校学生学习情况、学生入学信息等多个数据源,利用数据库技术将多个数据源中的可能对CET-4成绩造成影响的字段进行整合,合并成一个用于分析学生CET-4成绩的数据表。运用WEKA软件,挖掘出学生高考成绩、性别、对英语的学习态度、努力程度、与英语老师的关系和英语四级考试成绩之间潜在的关系。
4.2数据收集与数据预处理
本次数据中的原始样本数据共有1650个,经过初步的数据清理、排除、整合等操作后,参与数据挖掘的数据共有1528个,样本的有效率达到了92.6%。得到了一个包含stuNum,stuName,stuSex,stuScore,stuAttitude,stuWork,stuRelation,CET4Score八个字段的影响CET4成绩的数据表,数据如表1所示。
4.3数据转换
首先需要对stuScore、stuWork、CET4Score字段的数据通过离散化的方法,将原本NUMERIC类型转换为NOMINAL类型。将大学生高考成绩离散化为“A”(≥120分),“B”(≥105且<120分),“C”(≥90且<105分),“D”(<90分);将学生努力程度(每日学习英语的时间)离散化为“lazy”(425分),“nopass”(分数<425分)。当进行挖掘时,剔除掉stuNum和stuNarne两个字段的值。
4.4数据字段说明
经过转化后,属性的可选值为:
5实验结果
从数据集中随机抽取1428条数据作为训练数据集,把剩余的100条数据作为测试数据集,测试决策树的正确预测率。Weka中对数据集进行决策树分析,产生的决策树如图1。
正确率达到79.6218%,如圖2所示。
从建立的决策树模型中推测主要影响大学一年级新生的CFA一4成绩因素有三个,学习的努力程度、对英语的学习态度、高考成绩。
从中可以看出,学生的努力程度对第一次CET-4是否能通过,有很明显的预测作用,这也和我们本身认知一致,当付出了足够的努力,会获取相应的回报,同时培养学生的学习兴趣,对提高成绩也有很大的帮助,这个信息给了高校的英语老师一个很好的提示,尽可能的要提高学生学习兴趣,同时高考的成绩也反映出学生的基础知识,学习是个长期努力的过程,需要长时间的积累,只有对英语有兴趣,花足够多的时间来学习英语,才能更好地提高英语成绩。
6结语
本文研究了可能影响CET-4成绩的相关因素,介绍了C4.5数据挖掘方法,以开源数据挖掘软件WEKA平台为基础,调用其封装好的决策树J48算法,快速的挖掘出学生高考成绩、性别、对英语的学习态度、努力程度、与英语老师的关系和英语四级考试成绩之间潜在的关系。WEKA数据挖掘软件开源并且源代码免费,是一款非常好的数据挖掘软件,利用该软件可以节省挖掘数据的时间,提高工作的效率,挖掘出数据背后的隐藏的、有价值的信息,从而提高人们的学习效率,生活质量。
关键词:WEKA软件;CET-4成绩;数据挖掘;决策树
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)07-0248-02
1引言
大學英语四级考试,即CET-4,College English Test Band4的缩写,是由国家教育部高等教育司主持的全国性教学考试。考试有一定的难度并且监考力度大,考试成绩具有很高的可信度,因此引起了高校中学生、老师和领导的高度重视。
学校每年都会进行在校大学生学习情况的调查,而这些数据仅仅是用在表面的数据查询,数据背后隐藏的有用信息并未被有效的挖掘出来。针对这个问题,利用WEKA数据挖掘软件中决策树J48(对C4.5进行了改进)算法,挖掘出学生高考成绩、性别、对英语的学习态度、努力程度、与英语老师的关系与CET-4成绩之间的潜在关系,分析出那些因素对CET-4成绩影响最大,从而总结出学习的规律,提高高校学生的CE’T-4成绩。
2WEKA软件
2.1WEKA数据挖掘软件介绍
Weka的全名是怀卡托智能分析环境(WaikatoEnvironment for Knowledge Analysis),是一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。
2.2WEKA数据集格式AR]EF
ARFF(Attribute-Relation File Format)格式是一种ASCII文本文件,记录了具有共同属性的实例集。ARFF格式是数据挖掘软件WEKA所使用的文件格式。ARFF文件分为注释、关系名、属性名、数据域几大部分,注释用百分号开头%,关系名用@relation申明,属性用@attribute什么,数据域用@data开头。当数据是数值型,在属性名的后面加numeric,如果是离散值(枚举值),就用一个大括号将值域列出来。@data下一行后为数据记录,数据为矩阵形式,即每一个的数据元素个数相等,若有缺失值,就用问号?表示。
3C4.5数据挖掘算法
C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法ID3算法。分类决策树算法是从大量事例中进行提取分类规则的自上而下的决策树。
ID3算法的核心思想就是以信息增益度量属性选择,选择分裂后信息增益最大的属性进行分裂。
设D为用类别对训练元组进行的划分,则D的熵(entropy)表示为:
其中pi表示第i个类别在整个训练元组中出现的概率,可以用属于此类别元素的数量除以训练元组元素总数量作为估计。熵的实际意义表示是D中元组的类标号所需要的平均信息量。
现在我们假设将训练元组D按属性A进行划分,则A对D划分的期望信息为;
而信息增益即为两者的差值:
C4.5算法继承了TD3算法的优点,并对ID3算法进行了改进:
C4.5算法首先定义了“分裂信息”,其定义可以表示成:
其中各符号意义与ID3算法相同,然后,增益率被定义为;
4CE4-4成绩挖掘与分析
4.1确定挖掘对象阶段
此次实验的数据来源于我校在校学生学习情况、学生入学信息等多个数据源,利用数据库技术将多个数据源中的可能对CET-4成绩造成影响的字段进行整合,合并成一个用于分析学生CET-4成绩的数据表。运用WEKA软件,挖掘出学生高考成绩、性别、对英语的学习态度、努力程度、与英语老师的关系和英语四级考试成绩之间潜在的关系。
4.2数据收集与数据预处理
本次数据中的原始样本数据共有1650个,经过初步的数据清理、排除、整合等操作后,参与数据挖掘的数据共有1528个,样本的有效率达到了92.6%。得到了一个包含stuNum,stuName,stuSex,stuScore,stuAttitude,stuWork,stuRelation,CET4Score八个字段的影响CET4成绩的数据表,数据如表1所示。
4.3数据转换
首先需要对stuScore、stuWork、CET4Score字段的数据通过离散化的方法,将原本NUMERIC类型转换为NOMINAL类型。将大学生高考成绩离散化为“A”(≥120分),“B”(≥105且<120分),“C”(≥90且<105分),“D”(<90分);将学生努力程度(每日学习英语的时间)离散化为“lazy”(
4.4数据字段说明
经过转化后,属性的可选值为:
5实验结果
从数据集中随机抽取1428条数据作为训练数据集,把剩余的100条数据作为测试数据集,测试决策树的正确预测率。Weka中对数据集进行决策树分析,产生的决策树如图1。
正确率达到79.6218%,如圖2所示。
从建立的决策树模型中推测主要影响大学一年级新生的CFA一4成绩因素有三个,学习的努力程度、对英语的学习态度、高考成绩。
从中可以看出,学生的努力程度对第一次CET-4是否能通过,有很明显的预测作用,这也和我们本身认知一致,当付出了足够的努力,会获取相应的回报,同时培养学生的学习兴趣,对提高成绩也有很大的帮助,这个信息给了高校的英语老师一个很好的提示,尽可能的要提高学生学习兴趣,同时高考的成绩也反映出学生的基础知识,学习是个长期努力的过程,需要长时间的积累,只有对英语有兴趣,花足够多的时间来学习英语,才能更好地提高英语成绩。
6结语
本文研究了可能影响CET-4成绩的相关因素,介绍了C4.5数据挖掘方法,以开源数据挖掘软件WEKA平台为基础,调用其封装好的决策树J48算法,快速的挖掘出学生高考成绩、性别、对英语的学习态度、努力程度、与英语老师的关系和英语四级考试成绩之间潜在的关系。WEKA数据挖掘软件开源并且源代码免费,是一款非常好的数据挖掘软件,利用该软件可以节省挖掘数据的时间,提高工作的效率,挖掘出数据背后的隐藏的、有价值的信息,从而提高人们的学习效率,生活质量。