基于网页结构挖掘的Web信息提取

来源 :南京大学 | 被引量 : 0次 | 上传用户:chessinge
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二十一世纪,人类迈入了“信息爆炸”时代。在这个时代,信息靠多种形态信息媒体透过复杂的信息网络系统传递。互联网技术的蓬勃发展,把信息的交互传递推向至高点。在纷繁杂乱的信息爆炸时代,要在浩瀚的数据中找到特定人群关注的有价值信息变得非常困难。 信息提取技术就是为了解决无关数据过量而有价值难寻的难题,针对结构文档,半结构文档,纯文档进行知识抽取,帮助人们从海量的信息集中将有价值的信息过滤,提取出来并归类的应用技术。 至今为止,各式各样的信息提取技术迅速发展,比如利用网页格式特征进行信息提取,借助自然语言处理技术进行信息提取,利用网页视觉特征进行信息提取等等,然而都有一些适用条件和不足。 考虑到网页文档比一般文本文档具有更多的结构信息,且网页文档结构信息和网页中的有价值信息的对应关系具有规律性。充分利用其结构信息,为Web信息提取提示了一条新的思路。本文提出两种在对网页结构信息进行挖掘的基础上进行信息提取的方案。 通过对Web网页特性的分析研究,我们发现Web网页具有内容更新频繁,但DOM结构比较稳定,甚至多个网页共享相同或类似DOM模板等特点和规律。根据以上特性,本文提出的方案一通过用户对样本网页标注,根据文档中有效信息在DOM结构上对应位置的特征,总结得到启发式规则,并将这些规则应用于类似网页以进行基于启发式规则信息提取。 此外,我们还发现某些领域的Web网页,比如相同网站的新闻,Blog,邮件,BBS,个人主页等倾向于用同样的模式来处理相似的内容,因此这些网页中都包含着大量结构相同的子模块,这些子模块覆盖了该网页的绝大部分有效信息。根据这一特性,本文提出的方案二通过后缀树算法提取出DOM结构中的所有重复子模式,对这些子模块进行筛选,并进行基于重复模式的信息提取。 结合上述两个信息提取方法,我们实现了一个信息提取的系统HTML2RSS,用于提取新闻、BLOG以及电子商务网页的有效信息。针对这两种信息提取方法的设计的实验结果表明,方案一具有更高的精度,准确度和适用范围,但是更依赖用户参与,且处理速度相对较慢;方案二对规范网页的处理精度,准确度比较好,且几乎不需要人工参与,处理速度较强。 本文提出的两种信息提取方案巧妙的利用网页结构信息,弥补了传统信息提取方法的不足,具有互补性。我们根据算法实现了一个主要面向新闻、BLOG以及电子商务网页的信息提取HTML2RSS系统。对系统性能的测试、分析结果表明以它能高效的对特别是新闻BLOG等比较规则的网页进行高精度的信息提取。该系统有助于人们从大量网络数据中方便地获取自己关注的有价值信息,具有很好的实用价值。
其他文献
基因表达数据的爆炸性增长迫切要求自动、有效的数据分析工具。目前聚类分析已成为分析基因表达数据、获取生物学信息的有力工具。   为了更好的挖掘基因表达数据,近年来提
超级基站是面向未来无线通信系统低功耗、高带宽需求,为了实现绿色、智能、高效的广域无线接入而提出的新型集中式无线通信网络架构。超级基站系统由全局资源智能控制中心、集
计算技术和网络技术的飞速发展,极大的促进了基于网络环境的科学应用研究和商业应用的发展。许多领域对计算能力的要求越来越高.单台计算机已很难满足计算需求。网格计算技术的
随着芯片的集成度和复杂度不断攀升,电子电路设计进入了高速、高密度、高功耗等设计领域,如何保证产品的可靠性,即在规定的时间内无故障地可靠地运作是计算机系统和主板设计必须
在Internet迅猛发展的今天,网络应用中出现了越来越多的不安全因素,时时威胁着网络的正常运行。近些年,随着电子商务、电子政务等大型网络应用的展开,如何在大规模分布网络环境下
随着信息技术的飞速发展,互联网上的电子文档已经成为一个巨大的信息源.在这个巨大的信息源面前,人们自然希望利用成熟的机器学习技术对感兴趣的信息进行查找、检索和分析.文本正
目前国内外的敌我识别系统大都存在如下问题:一次问答只能识别一个目标;必须及时应答任何武器的询问;安全性较差。针对这种状况,本文首次将数字签名应用于敌我识别系统,提出一种基
计算机取证的理想状态是在犯罪分子作案的同时捕获证据。对这一理想状态的追求导致实时取证(Real Time Forensic)的研究成了目前计算机取证领域研究的热点和难点之一。实时取
本文围绕主动队列管理算法的研究热点,在“利用数学模型评价RED算法的性能”和“设计基于控制论的AQM新算法”两方面做了深入地研究。提出了利用扩充的排队模型评价RED算法在
现代科学研究具有连续性和协同性等方面的特征,对高性能计算能力和海量数据处理能力要求越来越高。因此,用网络技术把各种资源聚合起来,实现跨地域、跨部门的共享和协同计算,是现