论文部分内容阅读
数字图书馆的建设面临着资源整理、查找、存储等一系列问题,传统的文档存储形式不利于信息的再利用、web发布等。提出了将中文文本数据转换为可扩展标记语言(XML)文档的一种方法,通过解析一个文件类型表示(DTD),利用DTD中给的元素名称、属性等从文本数据中找到相应元素的内容,从而形成一个特定DTD下的XML文档。