论文部分内容阅读
随着Internet的快速发展,因特网上信息数据量与日俱增,当人们利用搜索引擎检索关键词,面对其返回的一个庞大的相关网页链接列表时,常常还是难以寻找到自己真正所需的资源。解决该问题的重要途径之一就是从体裁的角度对网页进行分类,在分类的基础上再进行检索可以大大提高检索的精度。
网页的体裁分类不同于传统的基于主题和内容的网页分类。网页的体裁分类是按网页的类型进行分类,是综合考虑网页的风格、样式、内容、功能等各种信息的分类方式,是一种“垂直于”网页内容分类的分类方式。目前,网页体裁分类还处于全面研究阶段,技术尚不够成熟,尤其是国内的研究才刚刚开始。
本文对网页体裁分类进行了初步的研究和探讨,提出了一种网页体裁分类的方法。该方法结合体裁分类的特点使用可扩展的多维向量空间模型来表示网页,并能够自动选取体裁特征,在分类计算中根据不同类型的特征向量采用不同的相似度加权值,最后采用Java语言编写了程序实现了中文网页的体裁分类。其主要研究工作如下:
(1) 本文归纳选取了因特网上常见的9种体裁类别,根据此类别人工收集了共1251篇网页文档,并对其加以类别标记后作为网页体裁分类的语料库。
(2) 借鉴文本分类的相关理论和技术,采用4维向量空间模型来表示一个网页。对网页的体裁特征进行了分析,采用标签、形态、内容、词性四种类型的特征向量共同来描述网页的体裁特征。
(3) 对网页体裁特征项的选取进行了研究和分析,并利用特征项频率、集中度和分散度三者结合的衡量标准对特征项进行自动选取。
(4) 对传统的K-近邻分类算法进行了相似度加权组合的改进,以适用于网页的体裁分类。
(5) 本文提出了网页体裁分类系统的总体设计,采用Java语言实现了整个分类系统,并系统进行了实验测试和结果分析。实验结果表明:开放测试分类的平均精度达到80%以上,达到了预期的目标,证明了网页体裁分类的可行性,为下一步更深入的探索奠定了初步的研究基础,也为未来网页体裁分类的实际应用提供了一定的理论支撑。