论文部分内容阅读
当今,海量的Web页面构成了互联网时代最重要的信息资源。为了有效地组织和分析这些海量的信息资源,人们希望能够实现对Web页面的自动分类。然而,现有的文档分类方法大多是面向传统文档(即平面文档,flat text)的,不能直接用于Web页面的分类。这是因为大多数Web页面是半结构化的HTML文档,其中含有丰富的结构、超链等信息,若对Web文档也采取传统文档的单特征抽取,很难充分表达Web文档的丰富特征。因此,结合Web文档自身的特点对其进行多特征的抽取可能是非常必要且有意义的。基于这样的考虑,本文通过分析Web页面中的元数据、超链接结构和页面结构,对Web文档进行了多种特征的抽取。主要工作如下:
1.对页面中的元数据,我们只关心<Meta>元素和<Title>元素。考虑到<Meta>元素的可信度不是太高,我们要对<Meta>元素作检查,同时,抽取页面中的一部分高频词来补充Meta keywords。
2.在对超链接结构的分析中,我们首先区分了4种不同类型的超链接,继而提出了在超链接过滤基础上的链接相似度计算,最后得到结合链接相似度和锚文本的Web文档表示。
3.在对页面结构的分析中,我们同时区分了不同类型的页面和超链接,通过构造一棵简化的标签树,使用以正文块为中心的权值传递规则计算主题相关超链块的权重。最后给出了结合页面结构的Web文档表示。
在对Web文档进行多特征抽取的基础之上,本文给出了Web文档的6种表示方法,并使用NB、kNN、SVM等3种分类算法对这6种表示方法的优劣进行了评估。实验表明,与仅仅使用单一特征的表示方法相比较,有效地结合多种特征会在一定程度上改善Web文档的分类效果。