论文部分内容阅读
随着互联网的高速发展,Web已经成为这个世界上最大的信息来源。Web作为信息技术的载体已成为人们工作、学习、生活、娱乐的重要工具。Web的发展给人类生活带来了巨大的方便,人们可以跨越时间和空间界限来共享大量信息。而这些信息正呈指数级增长。那么,如何有效地利用这些信息成为人们的重要研究课题,因此出现了大量以Web作为信息源的技术和应用,其中Web的信息抽取技术在近年来引起了越来越多的研究者的关注。由于Web页面的信息属于半结构化的数据,缺乏严格规范的语法结构,所以传统的自然语言处理技术并不能很好地适用于Web信息抽取。Web页面被浏览器识别、解释和显示并供用户查看和理解,其中包含了大量的视觉特征,如果我们把Web页面的这种视觉信息应用于信息抽取,就可以避免使用复杂的自然语言处理技术。因此,将基于自然语言处理方式和Web页面的视觉特征有效地结合起来进行Web页面的信息抽取是本文研究的重点。本文结合自然语言处理技术和HTML页面视觉特征在Web页面信息抽取中的应用,进行了相关研究工作。首先,研究了Web信息抽取技术的发展,分析其现状,并总结了目前Web信息抽取技术存在的不足。其次,研究了Web中半结构化页面的视觉特征信息和基于视觉特征对页面分块的启发式规则。同时,提出了一种基于视觉特征的Web页面信息抽取算法(VWDREA,Vision-based Web Page Data Region Extraction Algorithm)。该方法利用网页的视觉特征规则,针对粗粒度的Web页面分块的细化问题和Web页面最小分块的重组问题,对页面块的视觉因素进行分析,最终准确确定待抽取的主题数据区域,并研究了Web页面语义块的信息采集和主题提取算法。最后,本文总结了Web信息抽取技术在实际应用中的价值及展望。