基于主题块检测的网页正文提取技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:fmylqy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网页一般总是包含很多广告条,导航栏,以及版权声明等信息。这些不相关的信息构成了网页内容的一部分,它们将会严重影响信息检索的效果。研究者们发现一篇网页可以被划分成不同的内容块,并且这些块在网页中的重要程度不尽相同。因此有效区分信息主题块和噪音块是提取网页中有价值的内容的有效方法。   网页正文提取能够对网页中的重要的主题信息进行提取,因此正文提取对于网页数据挖掘有着重要的作用,也是近年来的研究热点。本文工作的目标是通过研究网页主题块的检测方法来对网页正文进行提取,论文的主要贡献包括以下几个方面:   1.提出了一种基于主题块检测的网页正文提取方法   本文结合实际的应用需求,阐述了基于网页主题块检测的网页正文提取技术,并给出了实验评测结果。本文提出的网页正文提取技术能够同时保留网页正文的文本和显示风格,这是本文方法的创新之处。   2.提出了一种新型的基于“耦合度”和“投影”的网页主题块检测方法   本文提出了一种新型的检测网页中的主题块的方法,“耦合度”依据的主要思想是不同网页的网页块间越相似,则这些网页分块越可能是噪音块:“投影”依据的主要思想是网页块与其所在网页的其他网页分块越相关,则它越可能是主题块。实验表明本文提出的网页主题块检测方法取得了较好的效果。   3.设计并实现了基于主题块检测的网页正文提取系统   本文设计并实现了以主题块检测为技术核心的网页正文提取系统,系统主要包括网页正文块的检测和正文块的噪音过滤两个模块。实验表明文本实现的网页正文提取系统在正文提取方面取得了较好的效果。
其他文献
近几年来,随着Internet的飞速发展以及IP技术不断成熟,下一代网络NGN(Next Generation Network)和软交换技术为结合电话网和Internet提供了思路,而IP-PBX(PBX over IP)是该技
基于哼唱的歌曲检索系统是一个分析处理音频信号的系统。任何信号处理过程都难免受到噪声的干扰。用户输入歌曲检索系统的哼唱信号中夹杂的白噪声、有色噪声、脉冲噪声以及非
对物体材质的研究近年来成为真实感绘制的热门问题。真实世界的材质数字化不仅对真实感图像的合成十分重要,而且还有很多其它方面的应用,比如电子商务、数字图书馆、文化遗产等
随着Internet的飞速发展,Web服务已在人们生活中起着越来越重要的作用.与此同时,能够反应用户行为的Web信息数据也日渐丰富。网络日志作为Web数据的一种存储方式,由于其数据充分
随着软件产业的迅速发展,软件系统的功能和结构日益复杂,人们对于软件产品的质量要求也越来越高。最常用的程序质量问题检测的技术包括软件测试和形式化验证。两种方法各有优缺
地形渲染是虚拟现实技术中非常重要的一部分,也是计算机图形学一个热门的研究课题。它广泛应用于地理信息系统、战场仿真、飞行模拟、电子地图、地形漫游和游戏娱乐等方面。随
移动学习系统是一个新型的E-learning学习环境,利用移动技术随时随地的特性,为学习者提供更加便利的学习支持服务。在面向职业培训和在岗学习的移动学习系统中,学习资源是一种特
在计算机科学领域中,程序分析足一种自动化地分析计算机程序的行为的重要技术。程序分析技术主要应用于程序的优化和程序正确性验证两个方面。现代编译器常常会利用程序分析技
BPEL(业务流程执行语言)作为一种Web服务组装协议,是使用XML编写的用于描述Web服务静态组装结构的形式规约语言。为了使BPEL所描述的Web服务组装能够满足设计人员的设计初衷。人
聚类是数据挖掘中一种非常重要的方法,在模式识别,图像处理和信息提取等领域有着重要的应用。每种聚类算法都有其特有的优势和适合的应用场合。同时,不同的应用有其不同的特点,这