论文部分内容阅读
随着互联网的发展和动态网页生成技术的成熟,网页的数量呈爆炸性的增长。而为了商业上的考虑和网站的维护,很多网页都充斥着很多重复性高且与网页主题内容无关的信息。例如:广告、表单和版权声明等。这些内容充斥在每个网页但是却多半不是使用者想要的信息。而目前一般的搜索引擎无法辨别这些不相关的部分,便索引网页所有部分,这不但会使得索引档案巨大而不易管理,也会使搜索结果产生偏差。另外,当使用者利用小型显示装置,如:掌上电脑(PDA),手机等,浏览网页时,也必须经过多次的滚动页面和找寻才能得到想要的信息。所以,在论文中我们提出了一种网页结构分析和内容提取系统来获得网页中真正有信息的部分,以提高基于网页内容的应用系统的服务质量。 针对HTML的半结构化特征和DOM缺乏位置信息和空间关系描述的不足,本文提出了一种新型的Web页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的页面坐标树模型,还包括能反映空间关系的Graph模型。通过将HTML文档转换为坐标树,并结合位置特征和空间关系可对网页进行分析和提取内容。 对来自120个网站的5000个网页进行测试后的结果表明该方法可达到93.87%的准确率,并且对相关连接和相关图片的抽取有较高的准确率和召回率。这表明我们的方法可以很有效的提取出网页的主题内容,这对基于网页内容的应用系统和基于网页超链指向的应用系统都有很大帮助。 在本文的最后我们提出了一种基于决策支持向量机的网页自动分类系统,并将我们的主题内容提取方法应用到该系统,实验表明主题提取提高了原有系统的正确率和召回率。