基于网页结构挖掘的Web信息提取

来源 :南京大学 | 被引量 : 0次 | 上传用户：chessinge

【摘要】

：

二十一世纪，人类迈入了“信息爆炸”时代。在这个时代，信息靠多种形态信息媒体透过复杂的信息网络系统传递。互联网技术的蓬勃发展，把信息的交互传递推向至高点。在纷繁杂乱的信

【作者】

：

李媛

【机构】

：

南京大学

【出处】

：

南京大学

【发表日期】

：

2006年期

【关键词】

：

网页结构挖掘 Web信息信息提取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

二十一世纪，人类迈入了“信息爆炸”时代。在这个时代，信息靠多种形态信息媒体透过复杂的信息网络系统传递。互联网技术的蓬勃发展，把信息的交互传递推向至高点。在纷繁杂乱的信息爆炸时代，要在浩瀚的数据中找到特定人群关注的有价值信息变得非常困难。信息提取技术就是为了解决无关数据过量而有价值难寻的难题，针对结构文档，半结构文档，纯文档进行知识抽取，帮助人们从海量的信息集中将有价值的信息过滤，提取出来并归类的应用技术。至今为止，各式各样的信息提取技术迅速发展，比如利用网页格式特征进行信息提取，借助自然语言处理技术进行信息提取，利用网页视觉特征进行信息提取等等，然而都有一些适用条件和不足。考虑到网页文档比一般文本文档具有更多的结构信息，且网页文档结构信息和网页中的有价值信息的对应关系具有规律性。充分利用其结构信息，为Web信息提取提示了一条新的思路。本文提出两种在对网页结构信息进行挖掘的基础上进行信息提取的方案。通过对Web网页特性的分析研究，我们发现Web网页具有内容更新频繁，但DOM结构比较稳定，甚至多个网页共享相同或类似DOM模板等特点和规律。根据以上特性，本文提出的方案一通过用户对样本网页标注，根据文档中有效信息在DOM结构上对应位置的特征，总结得到启发式规则，并将这些规则应用于类似网页以进行基于启发式规则信息提取。此外，我们还发现某些领域的Web网页，比如相同网站的新闻，Blog，邮件，BBS，个人主页等倾向于用同样的模式来处理相似的内容，因此这些网页中都包含着大量结构相同的子模块，这些子模块覆盖了该网页的绝大部分有效信息。根据这一特性，本文提出的方案二通过后缀树算法提取出DOM结构中的所有重复子模式，对这些子模块进行筛选，并进行基于重复模式的信息提取。结合上述两个信息提取方法，我们实现了一个信息提取的系统HTML2RSS，用于提取新闻、BLOG以及电子商务网页的有效信息。针对这两种信息提取方法的设计的实验结果表明，方案一具有更高的精度，准确度和适用范围，但是更依赖用户参与，且处理速度相对较慢；方案二对规范网页的处理精度，准确度比较好，且几乎不需要人工参与，处理速度较强。本文提出的两种信息提取方案巧妙的利用网页结构信息，弥补了传统信息提取方法的不足，具有互补性。我们根据算法实现了一个主要面向新闻、BLOG以及电子商务网页的信息提取HTML2RSS系统。对系统性能的测试、分析结果表明以它能高效的对特别是新闻BLOG等比较规则的网页进行高精度的信息提取。该系统有助于人们从大量网络数据中方便地获取自己关注的有价值信息，具有很好的实用价值。

其他文献

基因表达数据的聚类算法研究

基因表达数据的爆炸性增长迫切要求自动、有效的数据分析工具。目前聚类分析已成为分析基因表达数据、获取生物学信息的有力工具。　　为了更好的挖掘基因表达数据，近年来提

学位

基因表达数据聚类算法一致性检测层次框架芽殖酵母基因K-均值算法

超级基站运维管理系统的设计与实现

超级基站是面向未来无线通信系统低功耗、高带宽需求，为了实现绿色、智能、高效的广域无线接入而提出的新型集中式无线通信网络架构。超级基站系统由全局资源智能控制中心、集

学位

超级基站运维管理系统设计移动通信网

基于LDAP的网格资源管理的研究

计算技术和网络技术的飞速发展，极大的促进了基于网络环境的科学应用研究和商业应用的发展。许多领域对计算能力的要求越来越高．单台计算机已很难满足计算需求。网格计算技术的

学位

网格资源管理LDAPWeb服务

基于无铅工艺的PC主板可靠性设计研究与实践

随着芯片的集成度和复杂度不断攀升，电子电路设计进入了高速、高密度、高功耗等设计领域，如何保证产品的可靠性，即在规定的时间内无故障地可靠地运作是计算机系统和主板设计必须

学位

无铅工艺主板制造可靠性设计系统结构

安全信任协商系统STNS的研究与设计

在Internet迅猛发展的今天，网络应用中出现了越来越多的不安全因素，时时威胁着网络的正常运行。近些年，随着电子商务、电子政务等大型网络应用的展开，如何在大规模分布网络环境下

学位

安全信任协商系统体系构架业务流程安全管理

机器学习在网络爬虫与在线论坛中的应用研究

随着信息技术的飞速发展，互联网上的电子文档已经成为一个巨大的信息源．在这个巨大的信息源面前，人们自然希望利用成熟的机器学习技术对感兴趣的信息进行查找、检索和分析．文本正

学位

机器学习网络爬虫在线论坛主题式爬虫算法

基于ECDSA数字签名算法的敌我识别技术研究

目前国内外的敌我识别系统大都存在如下问题：一次问答只能识别一个目标；必须及时应答任何武器的询问；安全性较差。针对这种状况，本文首次将数字签名应用于敌我识别系统，提出一种基

学位

敌我识别敌我识别数字签名数字签名数据加密数据加密ECDSA算法ECDSA算法

实时可取证操作系统的模型、策略及实现研究

计算机取证的理想状态是在犯罪分子作案的同时捕获证据。对这一理想状态的追求导致实时取证(Real Time Forensic)的研究成了目前计算机取证领域研究的热点和难点之一。实时取

学位

计算机取证操作系统多目标优化模型过程模型kNN算法FreeBSD6.0

RED算法性能评价的排队模型与基于控制论的AQM算法设计研究

本文围绕主动队列管理算法的研究热点，在“利用数学模型评价RED算法的性能”和“设计基于控制论的AQM新算法”两方面做了深入地研究。提出了利用扩充的排队模型评价RED算法在

学位

网络管理拥塞控制排队系统管理算法

基于分布式散列表的网格监控系统设计与实现

现代科学研究具有连续性和协同性等方面的特征，对高性能计算能力和海量数据处理能力要求越来越高。因此，用网络技术把各种资源聚合起来，实现跨地域、跨部门的共享和协同计算，是现

学位

网格计算分布式散列表网格监控

基于网页结构挖掘的Web信息提取

与本文相关的学术论文