论文部分内容阅读
随着现代计算机科学技术的飞速发展,网络已经逐渐的成为人们日常生活中获得有效信息不可缺少的途径。研究生招生考试的信息均可以在网络上查找,不论是各个高等院校自己的校内信息网站还是各种教育考研招生信息网站,都采用Word附件的形式,或者使用Excel或者以HTML表格形式对外发布招生简章和专业目录。目前的目录中,Word版属于非结构化,Excel和HTML版是半结构化。各高校的文件格式各成一体,没有遵循统一的标准。这类面向阅读的招生目录虽然含有大量数据,但是,受表达方式限制不能像数据库一样加以利用。本文主要针对吉林大学研究生招生信息进行结构优化,是要将现有的电子版招生信息转变成计算机可读的数据源,即将研究生招生简章和专业目录中自定义的、非结构化和半结构化信息转换成规范的结构化数据,然后将结构化数据用作网络规范发布的数据源。重点实现招生专业目录的结构化,同时兼顾招生简章的结构化。以方便有需求的用户可以更高效的使用。这也是向无纸化办公,数字化校园建设的目标更迈进了一步。由于可扩展标记语言(XML)具有简单,可扩充性,易读性等,我们主要采取从Word等非结构化文档向结构化数据XML文件转换方式,在本校原有的招生简章及目录的Word文档的内容中丰富信息,理清条理,划分层级,构建全面规范的XML Schema(架构)及其对应的InfoPath电子表单以供负责高校招生的工作人员填报招生信息具体内容。建立XSLT转化文件用于将之前由XML Schema生成的XML文件以HTML形式发布于网络,方便信息交流共享。采用XML技术的原始数据采集与合成方法、用户友好与计算机可读并行的文件发布方法、结构化招生文件的虚拟整合成分布式数据库的技术路线、和由我校牵头应用并将这些方法推广到其它高校的策划方案。可以使招生信息结构优化实现的更加顺利。