论文部分内容阅读
随着Internet的迅猛发展,各种基于Web的应用系统不断涌现,同时,对信息资源的共享与交换要求也越来越高。在现有的各种基于Web的应用系统中存在大量的,复杂的不同格式的数据。如何进行Web上各系统之间的数据交换成为一个十分重要的问题。其中的核心是Web上的各种数据格式之间的相互转换,其中一些转换涉及到语义的问题。但是,现有的格式转换技术一般仅能完成语法的转换,没能很好的解决语义转换的问题。 本文在分析现有的各种数据格式转换技术的基础上,提出了基于语义的数据格式转换方法。该方法以Word文档为例,对Word文档的转换采用基于模板和基于学习的两种策略,自动地将Word文档转换为XML。同时,为了进行高效的查询,又将转换结果转换为关系型数据作为副本。Word文档只有编辑和显示信息,无语义信息;将之转换为XML后,生成具有语义信息的文档数据,从而完成了基于语义的数据格式转换。该方法支持所见即所得,应用环境没有特殊性,方便了用户使用。另外,该方法采用了领域知识库与文档库相结合的办法,通过图形用户接口,用户可以按领域,根据自己感兴趣的信息,对文档库数据进行查询;也可以对大量Word文档进行精确的基于语义的查询和管理,大大提高工作效率。