论文部分内容阅读
本文从搜索引擎搜集网页,去除网页中的噪音和冗余的角度,对收集到的网页集合做网页正文提取,得到与主题相关的文字内容,用于后续的内容分析(分词、主题词识别、摘要等等)和检索服务。网页正文提取以网站为单位,对网站级别,频道级别和网页级别的正文进行识别,舍弃重复的和主题不相关的信息,减轻了后续处理的文本数据量,改善后续分析的效果,提高搜索引擎索引的性能。
文章首先介绍了正文提取工作在不同需求下使用的方法的侧重有所不同,定义了搜索引擎网页集合正文提取问题的目的和要求,总结了当今网页正文提取所采用的各种主要方法的特点,分析了针对搜索引擎收集到的网页集合做正文提取应该选取的方法,并参考中文网页的特点,提出了一种大规模中文网页正文提取的方法。主要分为:网页分块,使用有指导学习的方法选取正文网页块的特征,使用自学习的方法以网站的频道问单位提取网页正文。
本文采用天网搜索引擎100G的中文网页集合,将属于相同网站的网页排列在一起,以网站为单位,使用网站级别相似的特征作为判断正文的标准。在正文提取的工作中,首先,使用HTML语言的标签建立网页的DOM树,通过网页标签和视觉分布将网页分为不同的块,以块为单位判别是否属于网页的正文,相同网站、相同网站子频道的网页通过容错的HTML语言解析方法和自适应的边界划分,被划定隔开并统计重复的块在网站中出现测频率。
本文介绍了一种半自动的数据采集方法,在天网100G中文网页中随机抽取了来自10个网站的2000网页,得到了2000篇标注了的中文网页正文训练集。参照以往的工作,本文提出了网页块正文判别的七种特征,分别从网站级别与主题无关内容,网页级别正文,中文网页正文特点等等角度,讨论了各种特征的可行性。在有标注的网页集合上,使用有指导的机器学习方法,查看分类结果中各特征的分布情况,选取合适的特征:使用Kernel-SVM和Na(I)ve-Bayesian的分类方法心境比较和综合考虑,最终选取了其中的六种特征作为正文提取的判别依据。接下来本文的实验采用选取的六种特征在数据集上进行网页正文提取,采用自适应的学习方法以网站为单位,对于属于相同网站的网页分别进行正文提取,最终将实验的结果与以往工作所采用的规则的方法的实验结果进行比较,对比显示本文的方法在准确率,召回率,效率与正确率的权衡方面,较以往的工作有明显的提高和改进。
最后,本文还初步探讨了文中所提出的正文提取工作对后续网页主题词提取,网页摘要形成,搜索引擎索引建立工作的改善。同时针对工作中遇到的问题如正文提取的效率,实验评测的方法等方面做了延伸的讨论,提出今后可以改进的不足之处和进一步工作预期和可能的方向。