论文部分内容阅读
随着网络信息的急剧增长,在搜索引擎中使用确定的查询词检索时,返回结果一般是一个庞大的相关文档集列表。如何从该列表中快速获得想要的信息就成为一个极具研究价值的问题,解决该问题的一个重要途径就是对网页进行分类。目前对网页的分类研究大多数是基于主题或内容的,但有时用户会倾向于按照页面的结构形式信息来浏览结果集。因此,按形式分类也是一种有效的网页分类方式。目前网页形式分类技术还不够成熟,特别是中文网页形式分类的研究工作刚刚起步。 本文对网页形式分类进行了深入研究,在此基础上给出了对网页形式分类的理解。网页形式分类是基于网页的风格、形态和内容对网页进行分类的方法,它允许多类分类,并允许一个页面隶属于多个类别。 本文参照英文形式分类的相关体系,完成了中文网页形式分类机制的构建。研究选取11种网络上常见的形式类别,利用基于PageRank和锚文本的检索算法,从SEWM2006提供的CWT200g语料库中选取网页页面,在此基础上构建网页形式语料库。抽取特征项时,根据网页形式类别的特征,从网页的URL中提取特征项,并利用页面中的风格、形态和内容特征项,共同组成分类的特征项集合。采用样本决策方法对选定的特征项集合进行合理性度量,过滤掉区分性不强的特征项,形成最终的分类特征项集。 本文设计了两组特征项集合,即浅层特征、深层特征项综合集和浅层特征项集,利用SVM进行分类比较实验。实验结果表明第一组分类精度略高于第二组分类精度,但两者相差不大,平均精度都在80%以上。得到的结论是仅使用浅层特征项能获得与同时使用深层特征项同样好的分类效果。实验并且证实了中文网页形式分类是可行的,具有进一步研究的价值。