论文部分内容阅读
近年来随着信息技术的高速发展以及高校信息化的推进,高校在研究生培养的过程中产生了大量数据,这些数据也在日益复杂化和多样化。数据量的丰富一方面给研究生培养的相关研究工作提供了十分宝贵的数据资源,另一方面也给相关研究工作带来了新的挑战。在高校研究生培养的分析和研究中,如果直接针对这些数据进行分析,不仅会提升所构造模型的复杂度、影响算法的性能,甚至还可能会造成维度灾难。对研究生培养过程中所产生数据的特征指标进行有效筛选,对冗余指标进行去除,可以大幅降低研究生培养绩效分析过程中的计算量,节省运算时间。特征指标选择是指从原始数据集中挑选出合适的特征子集,以使特征评价结果最优的过程。特征指标的选择在数据挖掘和大数据分析中一直是非常重要的环节。在指标筛选过程中,如何确定特征指标间的关联性强弱以及如何筛选有效的特征指标是两个主要步骤。本文分析了国内外关于研究生绩效培养的相关理论和方法,以及正在被广泛使用的衡量指标关联性强弱的方法,提出了一种新的指标筛选方法。方法主要从改进特征指标之间的关联性度量标准和优化特征子集筛选过程两个方向进行。本文所做的主要工作总结如下:(1)详细阐述了本研究的意义和价值,以及国内外关于高校研究生培养的研究现状。介绍了项目所需的互信息、近邻传播聚类算法、邻域互信息等算法的基本原理和知识。(2)结合互信息的相关原理和近邻传播聚类算法的优势,提出了一种新的指标关联性度量方法近邻传播聚类互信息APMI。在5个开源数据集中,将近邻传播聚类互信息和邻域互信息进行了多维度对比,充分证明了近邻传播聚类互信息可用来度量特征指标之间的关联性强弱。(3)在近邻传播聚类互信息的基础上提出了新的指标筛选方法GAPMI,该方法不仅考虑了数据集中特征指标与决策指标的关联性,还同时考虑到了特征属性之间的相互影响。GAPMI在指标筛选的过程中会计算每个候选特征指标的综合冗余度和综合信息贡献度,并采用贪婪搜索的方式进行筛选。通过将GAPMI和FCBF、NRS、MNMI等筛选方法进行对比,证明了本文所提筛选方法的有效性。(4)将已经验证过的指标关联性强弱度量方法APMI和特征指标筛选方法GAPMI应用于研究生培养指标的筛选。在筛选过程中,采用层次分析法将多指标评价的输出结果进行量化,并将量化结果作为决策指标进行筛选。最终从18个输入指标中筛选得到了7个特征指标作为特征子集。(5)最后,文章对本文所做的工作以及相关研究成果进行了详细总结,根据实验中所遇到的问题指出了本文所提方法的不足之处,并对今后的研究方向进行了展望。本文所提方法是以互信息为理论基础进行,而互信息是一种基于概率统计的计量方法,所以随着数据量的增多,这种度量方法也会变得更加精确。因此,本文所提的方法对当下研究生培养的分析研究具有一定的理论意义和实际价值。