论文部分内容阅读
Internet技术的飞速发展和万维网在世界范围内的普及,使Web中包含的信息以惊人的速度增加着,Web成为了当代社会重要的信息来源。由于Web上信息的海量性,使得以往靠人工采集的方法显得效率低下,迫切需要一种能自动从Web上提取信息的技术,于是Web信息提取成为近年来研究的热点之一。
Web上信息载体的表现形式为Web页面,即网页,但每个网页的版面各异,各种信息分布在网页版面中的不同板块之中,含有主题信息的板块往往夹杂于各种噪音信息块之中,比如新浪新闻网页中的新闻内容板块周围存在着一些导航、广告、版权等信息块等。如何准确识别网页中主题信息所位于的信息块并自动提取出网页的主题信息,在Web信息提取领域中具有重要的应用价值。
本文提出了一种新的Web页面主题信息块自动识别和提取方法,主要工作包括以下几个方面:
首先分析了网页的结构特征,在构造HTML树的基础上设计了一种基于视觉特征的Web网页主题信息块的自动识别方法;
其次通过分析主题信息块的内部结构特征,设计了一种基于后缀树的网页主题信息的提取方法。
最后探讨了本文提出的方法在方正雷达系统和元搜索系统中的应用情况。