动态网页信息抽取的关键问题研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:chyanzmr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络信息抽取是指从半结构化的html网页中,抽取出正文、作者、时间等关键信息。网络信息抽取是包括搜索引擎、舆情系统、推荐系统等在内的数据分析系统的基础支持技术,用于从采集到的网页中抽取出结构化的关键信息,为上层的数据分析、数据展示提供高质量的基础数据。动态网页是指由网站后台程序根据数据库中的数据与独立的展示模板动态生成的html网页。因为动态网页数据与展示隔离,使得数据的组织与数据的展示都更加灵活与可维护。因而现代网站,尤其是大型网站,也都越来越多地开始采用动态网页技术。传统的动态网页抽取方法,都对动态网页类型进行了诸多限定,使得算法只能适用于一些特定的动态网页。同时,这些算法并没有考虑动态网页的模板变化,也没有相应的抽取失效检测方法。因此,本文致力于研究通用的动态网页的自动信息抽取方法,以及对应的模板失效检测方法。  首先,根据动态网页的生成原理,本文提出了以动态网页结构相似性与内容差异性为基本特征的动态网页数据记录识别方法,并在数据记录识别的基础上,提出了结合模板匹配与接口识别的属性识别方法,用于从数据记录中识别出正文、作者、时间等关键属性信息。  然后,针对模板失效的问题,本文在传统模板失效检测的基础上,结合动态网页的特点以及本文的抽取算法,提出了分阶段的模板失效检测方法:在抽取阶段,进行基于结构的快速失效检测;在抽取成功后,进行基于内容统计分布的模板失效检测。  最后,基于本文的抽取算法与模板失效检测方法,结合实验室自主开发的网络信息采集模块,设计了动态网站自动获取原型系统。  实验结果表明,本文的动态网页抽取算法可以在多种类型的动态网页下均取得良好的抽取效果,对应的模板失效检测方法也可以及时准确地发现模板的失效,保证抽取的可持续进行。因此,本文的研究成果具有很好的应用价值。
其他文献
面向应用层的细粒度网络协议识别技术当前被广泛应用于上网行为管理、网络流量分析与控制和下一代防火墙等多种网络安全应用场景中,而随着网络应用数量的增长,待识别协议特征集
随着互联网上信息的逐渐增长,要找到某一方面的信息变得越来越困难。人们逐渐希望得到一种有效的方法来查找对自己有用的信息。使用搜索引擎进行搜索就成了检索信息的有效的方
嵌入式系统广泛采用Linux作为操作系统,它们大多数直接由标准的Linux移植过来,其内核的存储管理子系统对嵌入式系统硬件平台的可剪裁性支持有限,特别是没有专门针对众多无硬盘典
本文通过对目前比较流行的三维人脸动画技术的研究,提出了一种基于文本和语音驱动的人脸表情动画算法的实现,并拟将该算法运用到三维虚拟教学环境之中。通过虚拟教师面部表情的
随着电信网、互联网和广电网业务的发展,家庭用户的市场需求呈现出媒体互动化、业务多样化和终端综合化的特点,在国家信息产业“三网融合”战略的推进下,家庭手机屏、PC屏、T
随着当前网络技术的发展,数字图书馆拥有越来越庞大的数据资源,然而广大用户可能难以确定有效的检索词来获取需要的资源。针对上述问题,本文以国家“211”工程“中国高等教育文
目前,我国的电力设计行业在项目管理中还存在很多问题,其中最关键的问题就是工程设计流程不够完整和规范。对电力设计流程进行规范化建模和分析是提高电力设计效率的关键。Petr
近些年来,各种信息处理系统和互联网快速发展,大量的数据随之产生。如何从这些数据中发现有用的知识就变得非常重要,因此,数据挖掘在近些年是热点研究领域。而在数据挖掘研究中,聚
在开放的互联网环境中,面向服务的计算(Service-Oriented Computing,SOC)和面向服务的体系架构(Service-Oriented Architecture,SOA)使得信息资源和软件系统的主要形态发生了巨
增强现实技术(Augmented Reality)是指将计算机产生的虚拟对象放置到反映真实世界的场景空间中,并对真实世界起到补充,增强的作用的一种新兴技术。本文提出了一种可应用于机器