论文部分内容阅读
海量教育考试数据资源的数据挖掘与分析研究工作,对于充分发掘教育考试数据的潜在价值,更加科学地进行教育管理及决策具有非常重要的意义。
论文以北京教育考试数据资源系统和北京教育考试远程电子巡查指挥系统为实际应用背景,研究教育考试信息技术应用中的关键技术,主要内容如下:
(1)系统综述和分析了数据挖掘现状、数据挖掘在教育行业中的应用、教育考试数据资源应用现状、视频检测应用现状,指出教育考试信息技术应用中需要解决的重点和难点问题。
(2)进行基于数据挖掘的教育考试数据资源系统研究。论文构建了面向数据挖掘的教育考试数据资源系统体系结构,分析了系统的ETL工作流,设计并实现了数据转换平台,构建并实现了基于组件技术的智能型综合数据分析平台。
(3)研究设计了教育考试数据仓库/集市多维数据模型。论文对数据仓库逻辑建模方法进行分析,首先对两类基本数据仓库逻辑建模方式进行分析对比,并指出两类逻辑建模方式的不足。在此基础上,设计出面向教育考试数据仓库/集市的雪花模型。雪花模型能够解决数据仓库/集市的大维度问题,并能有效降低数据仓库的数据冗余度,减少数据量,保证数据一致性;此外,雪花模型在建立聚集事实表方面优势明显,能够实现基于灵活粒度的数据挖掘。
(4)研究设计了多种聚类方法及聚类验证技术的混合聚类应用模式。采用实证研究方法对聚类技术、主流聚类算法以及聚类验证技术、聚类验证方法进行了深入分析与比较,在此基础上,提出混合聚类应用模式。混合聚类模型中将数据理解、自组织特征映射SOM聚类、层次聚类、模糊聚类、聚类验证、聚类质量反馈、聚类调整等一系列过程混合应用,以实现最佳聚类结果。并对北京地区高等学校教育资源数据,应用混合聚类方法,生成北京地区普通高等学校资源状况分类,并进行了分析。
(5)关联规则挖掘算法研究。论文对几种典型关联规则挖掘算法进行分析,并针对Apriori算法没有充分利用先验知识有效缩减遍历事务数据库规模的不足,提出了基于大项集迭代的关联规则挖掘算法IR-Apriori,仿真试验显示,IR-Apriori算法能有效缩减遍历数据库的规模,大大提高算法性能。
(6)进行基于视觉模式分析与挖掘技术的违规监控行为检测研究。论文根据考试监控的需求和试卷的特点,提出了基于视觉模式分析和挖掘技术的层次型泄密试卷检测算法。该算法基于自适应高斯混合模型进行像素检测并使用区域增长算法实现区域分割,通过形状判定与分类实现最终检测,算法具有快速性和准确性的特点,实验证明,算法能够快速有效检测出泄题试卷。
(7)进行基于运动信息的作弊事件检测研究。论文针对考试过程中的违规违纪事件进行智能视频分析,提出了基于运动信息的作弊事件检测算法。算法采用高斯背景建模技术来统计分析出视频中的运动像素特征值,再使用决策树模型分析运动对象的描述特征来检测出作弊事件。实验证明,算法能准确识别出考试过程中站立、传递试卷、离开考场的作弊事件。