论文部分内容阅读
本文讨论了XML较其它半结构化模型的优势,以及现有的基于XML的Web数据抽取技术,考虑到HTML页面的特点,引入了采用基本项方式描述的页面树,给出了将HTML文档转换为XML文档的基于基本项描述方式的多叉页面树的转换方法。该方法基于对HTML页面描述方式、页面结构以及HTML标记和格式的分析,建立页面树,将HTML到XML的转换转变为页面树到XML的转换。按照这个方法开发的HTMLtoXML的原型系统对测试网页基本完成了Web信息提取的任务。
本文还对如何将XML存储到关系数据库中作了一定研究,给出了基于O-R算法和XMLSchema的将XML映射到关系数据库的映射规则和主要算法。这样将Internet上的数据经过基于XML的数据抽取和基于关系数据库的存储,使得Web挖掘转变成了传统数据挖掘即数据库中的知识发现,以便于使用多种挖掘方法获得更多有用信息。