论文部分内容阅读
随着社会的进步和科技的发展,特别是Internet的广泛应用,人们要面对的信息量越来越多。统计资料表明,20%左右的结构化信息有效地存储在各种类型的结构化数据库中,但还有80%左右的非结构化信息分散在整个业务过程及外部环境中。非结构化信息已成为政府、企业等决策的依据。怎么样有效的管理好这些非结构化数据,并挖掘出这些数据的内在联系和知识重点是目前急需解决的问题。传统的数据管理特别是关系数据库系统,应用中对非结构化的数据只提供一些表层的管理;而目前对于非结构化信息的处理方式,侧重于电子化的文档的处理,缺乏对非结构化信息全生命周期和智能化的管理,实现起来较为复杂或效率较低,需要付出较为昂贵的代价。XML对非结构化数据的管理方式成为非结构化数据管理的一种经济的、简单的、可行的方式。本文通过分析Word文档、Excel文档、Web网页等非结构化数据的结构特点,创建各自对应的转换程序来读取这些非结构化数据的内容,使用不同的转换规则将其分别转换成为标准XML文档,使得对非结构化数据的管理转换为对半结构化数据的XML文档的管理;再通过以模板驱动建立XML文档数据与关系数据库的映射关系,按照一定的转换规则将XML数据转换成为结构化数据,为传统的基于关系模型的数据库所支持。本文的创新之处在于提出了XML对非结构化数据管理的设计及实现方案,该方案满足了多种类型数据融合的需要。综合文中提出的算法和过程,本文成功的实现了基于XML的长沙市中学生综合素质评价系统的开发,使中学生综合素质评价过程中所需要使用到的各类非结构化数据得到较为方便的管理。在通过进一步的完善和改进之后,本系统能够为今后中小学综合素质的评价工作做出应有的贡献。