论文部分内容阅读
目前,伴随着数据库技术、数据挖掘技术、数据仓库技术等的成熟和广泛应用,结构化文档管理问题已经基本得到解决;信息技术的广泛应用带来非结构化文档激增,但对其应用效率低下,而新兴管理思想的涌现以及全球化竞争的日益加剧迫切要求对组织中的非结构化文档资源进行有效的管理。非结构化文档管理正日益成为互联网时代信息资源管理的一个关键问题。本文将语义Web技术及标准引入非结构化文档的分析、标记和应用过程,以形成一套有效的非结构化文档管理方法,满足企业应用的迫切需求。本文首先系统介绍了语义Web的相关理论,其中重点是语义Web的三大关键技术:XML、RDF及本体。之后围绕非结构化文档管理生命周期的全过程:获取、标记、组织/存储及应用,分析了每个环节目前还存在的问题。之后引入语义Web技术进行分析和解决,重点解决了:1)文档标记中涉及到的标记语言(外表特征和内容特征两方面)、标记过程及标记工具,并最终形成完整的结构化的标记描述,以利于计算机进行理解和自动处理;2)组织方法采用基于本体的组织方法代替传统线性组织方法,以满足分布式的网络信息组织的需要,同时存储方式采取监督机制来协同源文档和标记文档之间的同步关系,以确保两者同时更改和删除;3)最后具体的应用则从信息检索、自动分类、智能推理三个方向来分析:信息检索时利用本体进行查询扩展,并根据语义相似度进行检索排序;自动分类则以领域本体作为分类树,以形成动态统一的分类标准;智能推理方面则利用本体和描述逻辑来实现计算机理解的、规范化的描述,并利用描述逻辑的推理功能进行智能推理。最后,在完成前面分析和解决问题的基础上,形成了完整的非结构化文档管理框架,详细描述非结构化文档管理生命周期的全过程,并设计了一个企业邮件管理原型系统,以验证研究的可行性和正确性。