论文部分内容阅读
教育信息化日益成为高校在新时期谋求发展的一个制高点。为了抢占这个制高点,各高校已经不满足于信息技术在学校工作中的条块化应用,而是希望在全校统一的信息化平台下,打破现有管理部门及应用系统间的隔阂,形成学校的信息化综合应用。信息集成为高校优化工作流程、有效配置资源和科学决策创造了条件。在此背景下,以信息集成为主要使命的数字校园建设,成为高校信息化发展过程中的一个关键节点。 大规模异构数据集成是数字校园信息集成的基础性和关键性问题,也是当前信息集成领域的研究重点。异构数据集成的任务是建立被集成数据之间的联系,消除数据间的异构性,向上层应用提供全局性和一致性的数据服务。本文深入分析了已有的解决模式异构、语义异构和全局数据规划等方面的数据集成技术以及这些技术应用到数字校园数据集成中的不足,并结合高校数字校园数据集成环境的特点,提出了一些新的技术与算法,最后介绍数字校园数据集成平台及其本文提出的技术和算法在平台上的应用。 本文主要的研究内容和创新工作包括: 1、为消除数据的模式异构,本文提出一种基于组合相似度计算的属性映射算法SACS。该算法综合利用数据属性的结构信息和实例信息,分类建立各类信息的相似度计算因子,然后用层次分析法对计算因子进行组合,消除干扰,最后根据属性间的组合相似度分别在数据源内和数据源间对属性进行聚类,输出具有映射关系的属性集合。实验结果表明,在领域无关的数据集成环境下,SACS算法的综合评价指标较已有的多策略机器学习算法LSD提高了6%。 2、为消除数据的语义异构,本文提出一种基于LSH检索模型的数据清洗算法DC LSH。该算法把数据记录的属性值转换为二迸制向量,采用改进的Min Hash函数提高近似匹配的查准率,设计了一种新的可迭代的LSH检索模型提高近似匹配的效率,保证近似匹配的查全率,最后用全局统一的数据字典对相同冲突域下的属性值进行并行数据清洗。实验结果表明,在大规模数据清洗条件下,DC_LSH算法的执行效率较之传统的两两匹配算法和聚类算法提高了1倍以上,通过设置参数,算法能够控制和得到稳定的查全率和查准率。 3、为科学规划全局数据和提高用户的查询效率,本文首先提出基于一种Jaccard相似度的数据库聚类算法DCJS对全局数据进行初步规划,接着提出面向查询集覆盖的物化视图选择算法MVSQ来优化用户对全局数据的查询。DCJS算法把待集成的数据库作为聚类单元,用Jaccard相似度评价数据库之间的亲和度,对亲和度较高的数据库进行聚类,并设计了聚类效果的评价方法。MVSQ算法以“裁剪”的思想。在候选视图总和超过空间限制时,优化裁剪针对查询集的冗余视图,直到剩余视图满足空间限制。实验结果表明,在目前大容量的空间限制下,MVSQ算法的执行效率较之基于“选择”的物化视图选择算法有大幅度的提高,且有效消除了已有算法响应不同查询的时延“抖动现象”。 在上述研究的基础上,本文最后介绍了华南师范大学数字校园数据集成平台SCNUDC的体系架构、构建与运行过程以及关键算法相关功能模块的实现。把异构数据集成中新的技术和算法应用到SCNUDC平台上,在SCNUDC的实际应用中进一步验证本文工作的有效性。