基于模板的网页主题信息抽取

来源 :北京机械工业学院 北京信息科技大学 | 被引量 : 0次 | 上传用户:heyouzhang034
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,Web已成为全球最大的信息源和知识库。而Web信息的主要载体——网页,除了表达主题的内容外,还有为了维持页面的链接关系而进行的导航设计或出于商业目的等进行的广告及修饰内容,这些对于以网页为数据进行处理的算法而言就是“噪音”。它们分布于网页四周,甚至附着在正文旁边,使文档主题很不明确,给Web上基于网页内容的研究工作带来很多困难。这就需要研究对网页主题信息进行抽取的有效方法。 目前互联网上绝大多数的页面都是由数据库和相关的网页模板生成,网页模板以固定的显示格式处理来自同一个来源的数据,由模板生成的网页结构布局是基本一致的。 本文充分利用该类网页的上述特征,通过结构相似判断算法将结构布局相似的网页自动归为一类,以此作为训练样本通过机器学习得到通用的网页主题信息抽取步骤,然后按照这个步骤从其他Web页面中抽取主题信息,并在抽取阶段完成抽取规则的自动更新。 主要内容包括:样本集的自动获取;通过训练生成抽取规则;根据抽取规则进行网页主题信息抽取。与现有方法相比,本文提出的方法充分考虑了网页的结构特征,具有较高的抽取效率和准确率。实验结果也证明了方法的正确性和有效性。
其他文献
数据仓库技术是数据库技术的一个研究方向,能够有效的管理传统数据库产生的历史数据,并向各种决策支持应用如联机分析处理、数据挖掘等提供有力的数据支持,适应了企业用户对数据
无线传感器网络(Wireless Sensor Network,简称WSN)是一种由大量微型传感器节点组成的面向任务的无线自组织网络。其中,路由问题作为WSN中的关键技术之一,已吸引了各学术界和
数字图象加密源于早期的经典加密理论,其目的是将一幅给定的图象按一定的变换规则在空域或频域将其变换为一幅杂乱无章的图象,从而隐藏其图象本身的真实信息。数字水印技术作
串行ATA(Serial Advanced Technology Attachment,SATA)是一种完全不同于并行ATA的新型硬盘接口标准。具有支持热插拔,传输速度快,执行效率高等特点。同时,SATA总线使用嵌入
离群点检测和聚类问题作为数据挖掘领域的经典课题,一直受到学术界的广泛关注。然而,随着传感器网络的普及以及“大数据”时代的到来,越来越多的数据由传统的静态数据向动态
本文基于软件测试方法,结合面向对象语言的特点,重新划分了面向对象的软件测试层次。分析面向对象语言对软件测试产生的影响,提出面向对象软件测试的测试模式和测试策略,对面
瓦斯爆炸事故是煤矿井下主要重大灾害之一。为了预防瓦斯爆炸事故,各煤矿企业采取了种种措施,其中之一就是煤矿安全监控系统。其原理就是井下各个工作面设置瓦斯传感器,通过电缆
近40年来,处理器与存储器访问速度之间存在着巨大的差距导致内存墙问题变得越来越严重,成为影响系统性能最主要的瓶颈之一。现代计算机体系结构中广泛采用Cache来缓解两者之
碰撞检测是虚拟现实、动画仿真、计算机辅助设计等领域不可回避的问题之一,其基本任务是确定两个或多个物体彼此之间是否发生接触或穿透。尽管人们已经取得了一系列成果,但是
21世纪是一个信息化的新世纪。随着网络技术的飞速发展,人们的学习、工作、生活各个方面无不被这一场信息化革命所影响。电子商务给人们带来越来越多的便利,人们能够足不出户