论文部分内容阅读
二十一世纪,人类迈入了“信息爆炸”时代。在这个时代,信息靠多种形态信息媒体透过复杂的信息网络系统传递。互联网技术的蓬勃发展,把信息的交互传递推向至高点。在纷繁杂乱的信息爆炸时代,要在浩瀚的数据中找到特定人群关注的有价值信息变得非常困难。
信息提取技术就是为了解决无关数据过量而有价值难寻的难题,针对结构文档,半结构文档,纯文档进行知识抽取,帮助人们从海量的信息集中将有价值的信息过滤,提取出来并归类的应用技术。
至今为止,各式各样的信息提取技术迅速发展,比如利用网页格式特征进行信息提取,借助自然语言处理技术进行信息提取,利用网页视觉特征进行信息提取等等,然而都有一些适用条件和不足。
考虑到网页文档比一般文本文档具有更多的结构信息,且网页文档结构信息和网页中的有价值信息的对应关系具有规律性。充分利用其结构信息,为Web信息提取提示了一条新的思路。本文提出两种在对网页结构信息进行挖掘的基础上进行信息提取的方案。
通过对Web网页特性的分析研究,我们发现Web网页具有内容更新频繁,但DOM结构比较稳定,甚至多个网页共享相同或类似DOM模板等特点和规律。根据以上特性,本文提出的方案一通过用户对样本网页标注,根据文档中有效信息在DOM结构上对应位置的特征,总结得到启发式规则,并将这些规则应用于类似网页以进行基于启发式规则信息提取。
此外,我们还发现某些领域的Web网页,比如相同网站的新闻,Blog,邮件,BBS,个人主页等倾向于用同样的模式来处理相似的内容,因此这些网页中都包含着大量结构相同的子模块,这些子模块覆盖了该网页的绝大部分有效信息。根据这一特性,本文提出的方案二通过后缀树算法提取出DOM结构中的所有重复子模式,对这些子模块进行筛选,并进行基于重复模式的信息提取。
结合上述两个信息提取方法,我们实现了一个信息提取的系统HTML2RSS,用于提取新闻、BLOG以及电子商务网页的有效信息。针对这两种信息提取方法的设计的实验结果表明,方案一具有更高的精度,准确度和适用范围,但是更依赖用户参与,且处理速度相对较慢;方案二对规范网页的处理精度,准确度比较好,且几乎不需要人工参与,处理速度较强。
本文提出的两种信息提取方案巧妙的利用网页结构信息,弥补了传统信息提取方法的不足,具有互补性。我们根据算法实现了一个主要面向新闻、BLOG以及电子商务网页的信息提取HTML2RSS系统。对系统性能的测试、分析结果表明以它能高效的对特别是新闻BLOG等比较规则的网页进行高精度的信息提取。该系统有助于人们从大量网络数据中方便地获取自己关注的有价值信息,具有很好的实用价值。