论文部分内容阅读
随着教育事业的不断发展,高校的招生规模迅速扩大,贫困生支持力度明显增大。贫困生资助的关键在于评定标准和评定方法的公正性。目前高校大多采用人为评定方法,工作效率相对低,存在评定指标不透明、不客观等漏洞。因此,研究高校贫困生评测客观评定方法有一定的实用价值。基于数据挖掘技术从海量的数据中提取有价值的信息,采用关联规则算法与决策树算法实现有价值数据提取并用于解决实际应用是有一项意义的研究工作。论文综合运用关联规则和决策树算法数据挖掘改进算法,提出了基于关联规则挖掘的决策树算法,用于贫困生评定实践应用问题。第一,分析了关联规则算法和决策树算法的具体执行步骤,鉴于Apriori算法性能高且大幅度压缩了候选集大小的特点,以及C4.5算法在决策树算法中的分类精度很高,本文提出的算法实际上是基于Apriori算法的C4.5算法;第二,对决策树构造过程进行分析,将关联规则算法引入到决策树构造中,通过从关联规则算法生成的一系列规则中,提取特征构造新的属性,重组数据集;第三,对C4.5算法进行改进,首先通过将信息熵值较高的分枝合并到信息熵值较低的分枝中,有效避免了C4.5算法的碎片问题;另外,在信息熵计算过程中引入一个平衡度系数ω,通过对某些不重要的属性指定平衡度系数,可以相对降低这些属性的信息熵,从而使生成的决策树有更高的准确性。第四,将改进算法对一个测试集进行分类,展示了改进算法的具体过程。为了说明算法优势,还采用UCI数据库中的三个数据集对改进算法进行实验验证,结果表明改进算法相对于原算法具有明显的优势。论文研究构建应用于高校贫困生评定决策树模型,并对模型进行评估。选取了3个专业共655条贫困生数据记录检验模型的分类效果,将分类结果与学校已有结果进行对比,结果显示模型分类与已有评定结果一致的记录所占比例高达87.48%。高效的挖掘结果表明,该认定模型对于未来的贫困认定实际工作有着重要意义。