中文网页正文提取的研究与应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:sangsang126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文从搜索引擎搜集网页,去除网页中的噪音和冗余的角度,对收集到的网页集合做网页正文提取,得到与主题相关的文字内容,用于后续的内容分析(分词、主题词识别、摘要等等)和检索服务。网页正文提取以网站为单位,对网站级别,频道级别和网页级别的正文进行识别,舍弃重复的和主题不相关的信息,减轻了后续处理的文本数据量,改善后续分析的效果,提高搜索引擎索引的性能。   文章首先介绍了正文提取工作在不同需求下使用的方法的侧重有所不同,定义了搜索引擎网页集合正文提取问题的目的和要求,总结了当今网页正文提取所采用的各种主要方法的特点,分析了针对搜索引擎收集到的网页集合做正文提取应该选取的方法,并参考中文网页的特点,提出了一种大规模中文网页正文提取的方法。主要分为:网页分块,使用有指导学习的方法选取正文网页块的特征,使用自学习的方法以网站的频道问单位提取网页正文。   本文采用天网搜索引擎100G的中文网页集合,将属于相同网站的网页排列在一起,以网站为单位,使用网站级别相似的特征作为判断正文的标准。在正文提取的工作中,首先,使用HTML语言的标签建立网页的DOM树,通过网页标签和视觉分布将网页分为不同的块,以块为单位判别是否属于网页的正文,相同网站、相同网站子频道的网页通过容错的HTML语言解析方法和自适应的边界划分,被划定隔开并统计重复的块在网站中出现测频率。   本文介绍了一种半自动的数据采集方法,在天网100G中文网页中随机抽取了来自10个网站的2000网页,得到了2000篇标注了的中文网页正文训练集。参照以往的工作,本文提出了网页块正文判别的七种特征,分别从网站级别与主题无关内容,网页级别正文,中文网页正文特点等等角度,讨论了各种特征的可行性。在有标注的网页集合上,使用有指导的机器学习方法,查看分类结果中各特征的分布情况,选取合适的特征:使用Kernel-SVM和Na(I)ve-Bayesian的分类方法心境比较和综合考虑,最终选取了其中的六种特征作为正文提取的判别依据。接下来本文的实验采用选取的六种特征在数据集上进行网页正文提取,采用自适应的学习方法以网站为单位,对于属于相同网站的网页分别进行正文提取,最终将实验的结果与以往工作所采用的规则的方法的实验结果进行比较,对比显示本文的方法在准确率,召回率,效率与正确率的权衡方面,较以往的工作有明显的提高和改进。   最后,本文还初步探讨了文中所提出的正文提取工作对后续网页主题词提取,网页摘要形成,搜索引擎索引建立工作的改善。同时针对工作中遇到的问题如正文提取的效率,实验评测的方法等方面做了延伸的讨论,提出今后可以改进的不足之处和进一步工作预期和可能的方向。
其他文献
随着计算机视觉技术的发展,利用数字图像处理技术来进行农作物病虫害诊断得到了人们的关注。而图像分割作为数字图像处理领域中最为基础和重要的问题,一直是困扰着学者们的一
学位
随着网络的普及和深入应用,人们希望利用互联网上的丰富信息资源在线创建满足其个性化需求的增值型互联网情景应用(Situational Applications)。研究如何构造互联网情景应用的
随着互联网技术应用的普及与推广,其用户数量急剧增长,应用形式层出不穷,网络的安全问题愈发严重,安全防御手段缺乏统一性和主动性的缺点也凸显出来。本文以网络安全风险管理
近年来,随着分布式数据库的应用越来越广泛,分布式数据库查询优化方法的研究一度成为分布式数据库领域的研究热点。然而其中的多连接查询优化问题却一直都没有得到很好的解决
汽车发动机的工作状况直接影响汽车的动力性、可靠性以及安全性。现有的汽车发动机综合故障诊断技术依赖于多种传感系统和专家的先验知识,不利于在车载系统上使用。因此,探索
软件技术发展至今已产生大量的方法和模型,但任何检验、验证手段都还不能发现并排除所有的软件缺陷。从第一个软件诞生,就伴随出现软件缺陷的检测和预测技术。检测技术在于发现
语音是人类之间最自然、最便捷、最有效的沟通交流方式,是人类的显著特征之一。语音识别技术可以将语音转换成相应的文本,是人类与机器进行交互的关键环节,更是实现人工智能技术
空间环境科学数据共享平台来源于子午工程项目。该平台充分利用最新的网络技术,建立基于互联网环境的在线数据共享技术系统,及时收集、整理、整合空间环境数据资源,为空间环
在深亚微米工艺下,众核处理器芯片设计遇到了来自以下几方面的挑战:由于晶体管面积不断减小,单位面积上的功耗在不断上升;芯片面积不断增大导致时钟网络非常容易受到在片波动的影
目标检测算法的目标是在没有人工干预的情况下,利用计算机视觉的方法,从摄像机拍摄下来的视频图像序列中快速、准确的检测出前景运动目标,并对目标进行定位和识别。目标检测