论文部分内容阅读
自上世纪50年代世界上第一台计算机问世以来,尤其是最近几十年随着互联网技术的飞速发展,英特网上来自全球领域的数据呈现指数型的增长。我们的日常生活也早已和这些海量的数据密切相关。互联网上的数据当然主要以Web数据为主要载体。但是由于受到web固有半结构限制再加上网页随处可见的与主题信息毫不相干的广告等噪声信息,这样使得我们对于自己感兴趣的信息难以从海量的web数据中获取并利用。于是研究如何准确方便的从海量的信息中提取人们关心的目标信息数据并且结构化存储起来变得越来越重要。目前这方面的研究已成为国内外学者研究热点之一,基本上多数的研究都是在HTML标签的解析基础上基于网页DOM树结构或者视觉树,然后通过一些包装器的设计等方法进行人工或者半人工也有自动化的提取技术,很多研究也取得了很好的效果。本文的研究也是建立在DOM树的结构基础上,针对列表型页面的数据提取做了详细的研究。提取结构特征值,通过对特征值的处理引入了中介数学理论。在定位目标数据区域的算法研究中,本文首先在基于对HTML解析成DOM文档树的基础上进行了优化处理。并且提出了“基于XPath的叶子节点路径改进算法”该算法输出DOM文档树叶子节点一个路径。此路径结构是后续的工作的可行性至关重要的基础。在此基础上把中介数学理论系统(MMT D)引入并且针对DOM树的结构特征提出了“基于MMTD目标数据区域定位算法(DL_MMTD) ",这个对模糊世界进行量化处理的数学方法被用在计算机科学的多个领域,尤其是模糊集处理方面。但是本文首次把中介数学理论应用到了网页信息提取研究上来,并且取得了不错的效果。紧接着对数据记录进行提取算法研究。提出了数据记录长度的概念。并且相应提出了“基于路径结构的数据记录长度求取算法(CDL_PathStructure)"。在得到每一个数据记录的数据长度的基础上都数据记录的数据项做依次提取工