论文部分内容阅读
摘要:随着互联网应用的不断开发,基于网页正文提取的技术层出不穷。几种比较经典的提取模型包括:基于DOM树网页提取模型、基于统计的网页提取模型、基于分块的网页提取模型。本文对网页正文提取技术的综合分析与研究,各种网页提取算法的优劣。
关键词:网页正文提取技术;经典提取模型的分析与研究
中图分类号:TP301.6 文献标识码:A 文章编号:1007-9599 (2012) 22-0000-02
1 引言
随着信息技术的迅速发展,基于互联网的应用越来越多的受到人们关注。WWW以超文本的形式给用户提供多种类别和形式的信息(包括技术资料、商业信息、新闻报道、娱乐信息等)。可以说,WWW是当今世界上最大的电子信息库,蕴含着许多具有潜在价值的知识。根据中国互联网信息中心(CNNIC)最新报告显示,截至2011年6月,中国网民规模达到4.85亿,较2010年底增加2770万人;互联网普及率攀升至36.2%,较2010年提高1.9个百分点。我国手机网民规模为3.18亿,较2010年底增加了1494万人。手机网民在总体网民中的比例达65.5%,成为中国网民的重要组成部分。人们可以借助移动设备以及计算机,通过互联网寻找任何自己想要的信息,然而,互联网又是一个具有开放性、异构性以及动态性的分布式网络,其资源分布分散、管理结构不一,这就导致了知识获取的困难。如何准确识别并有效提取包含在Web网页中的正文内容是Web智能信息检索[1-2]、文檔自动摘要[3-4]、用户浏览体验等诸多领域的重要工作之一。
2 基于DOM树的网页正文提取技术
目前在网页信息抽取技术中研究得最多的基于DOM的网页抽取技术,它历属于自动训练的研究方法,也是近些年来发展得最好的技术方法。DOM就是文档对象模型,全称为Document Object Model,它将HTML文档里的标签信息,如Table,List等利用起来,把文档解析成一个逻辑树型结构,节点就是对象。构建完DOM树后,通过将各个节点遍历,对各种非正文信息包括广告,链接群等识别并移除,移除完非正文信息后,正文内容就是DOM树中剩下的节点内容。
由于依赖于HTML文档里的标签结构的基于DOM树的算法,对于HTML规范语法的要求很宽松,所以不同的设计人员执行的规范程度不一样,比如标签的不匹配等。虽然这种不规范性对于HTML本身的执行不会造成问题,但却可能使构建DOM树的过程濒临崩溃。另外,更加重要的一点在于,解析DOM树的过程效率比较低。因为它会对文档中的每一个Element、Attribute、Comment等都创建一个对象,这样,大量的对象在运行过程中将会被创建和销毁,大大增加了搜索引擎中海量数据的处理的负担。
3 基于统计的网页正文提取技术
传统的网页内容提取方法需要针对不同的数据源创建不同的包装器,基于统计的网页正文抽取技术克服了这样的缺点,它具有了一定的普遍性。不需要样本学习,也大大提高了正文抽取的速度。
Finn等人将HTML看作是字符和标签组成的序列,判断文字是否为正文的依据是使用文本和HTML代码的密度,从而在字符集中的区域提取文字。基本的处理工作如下:
(1)解析HTML代码并记下处理的字节数;(2)以行或段的形式保存解析输出的文本;(3)统计每一行文本对应的HTML代码的字节数;(4)通过计算文本相对于字节数的比率来获取文本密度;(5)最后用神经网络来决定这一行是不是文本的一部分。
李蕾等人提出了一种基于快速傅立叶变换(FFT)的网页正文内容提取算法。采用窗口分段的方法, 利用统计学原理和FFT, 得出每个可能区间的权值, 从而求解出最佳正文区间。其基本步骤如下:
(1)读入HTML文件,转换为Unicode代码;(2)采用窗口分段的方法,将文件切分成若干等长窗口段;(3)应用统计学原理,对字符进行强制编码转换;(4)对每一段窗口作FFT,得到频域的F向量;(5)各段频域互相求差;(6)计算每个区间的权值;(7)依据权值排序;(8)加权平均。
这些方法不必知道HTML网页文件的结构和它所使用的lable标签,不管是含有文本内容的新闻文章还是博客页面,它都能有效的工作。但这种方法对于有表格和链接等标签结构的网页,不能有效的工作,它仅适用于正文文字较集中的网页。
4 基于分块的网页正文提取技术
当Web页面呈现在用户面前时,用户可能下意识地将网页页面划分成几个语义块。基于分块的网页正文提取技术类似于基于DOM的正文提取技术,区别在于前者在对页面分块时,仅仅考虑布局标签或其他页面布局信息。
一种基于HTML标签的网页内容发现方法是Shian-Han Lin等人提出的。这种方法先找出所有标签及其所含内容,把每一个块看成是一个内容块,然后计算内容块内关键字的嫡值,来确定每个内容块的嫡值,这个嫡值是指出现在整个网页簇中的特征词的权重。利用贪心法动态的选择墒值的闭值,找出含有有用的信息内容块。实验证明这种方法的召回率和准确率都较高。
标签的嵌套关系也十分复杂,网页的正文内容不一定都是在最底层的标签或标签中。因此,以上所述方法很有可能会遗漏部分正文信息。而基于视觉特性的分块方法比较复杂,运用的启发知识往往较为模糊,需要人工不断地总结调整规则,规则较多,因此如何保证统一的规则集也是一大难点。
关键词:网页正文提取技术;经典提取模型的分析与研究
中图分类号:TP301.6 文献标识码:A 文章编号:1007-9599 (2012) 22-0000-02
1 引言
随着信息技术的迅速发展,基于互联网的应用越来越多的受到人们关注。WWW以超文本的形式给用户提供多种类别和形式的信息(包括技术资料、商业信息、新闻报道、娱乐信息等)。可以说,WWW是当今世界上最大的电子信息库,蕴含着许多具有潜在价值的知识。根据中国互联网信息中心(CNNIC)最新报告显示,截至2011年6月,中国网民规模达到4.85亿,较2010年底增加2770万人;互联网普及率攀升至36.2%,较2010年提高1.9个百分点。我国手机网民规模为3.18亿,较2010年底增加了1494万人。手机网民在总体网民中的比例达65.5%,成为中国网民的重要组成部分。人们可以借助移动设备以及计算机,通过互联网寻找任何自己想要的信息,然而,互联网又是一个具有开放性、异构性以及动态性的分布式网络,其资源分布分散、管理结构不一,这就导致了知识获取的困难。如何准确识别并有效提取包含在Web网页中的正文内容是Web智能信息检索[1-2]、文檔自动摘要[3-4]、用户浏览体验等诸多领域的重要工作之一。
2 基于DOM树的网页正文提取技术
目前在网页信息抽取技术中研究得最多的基于DOM的网页抽取技术,它历属于自动训练的研究方法,也是近些年来发展得最好的技术方法。DOM就是文档对象模型,全称为Document Object Model,它将HTML文档里的标签信息,如Table,List等利用起来,把文档解析成一个逻辑树型结构,节点就是对象。构建完DOM树后,通过将各个节点遍历,对各种非正文信息包括广告,链接群等识别并移除,移除完非正文信息后,正文内容就是DOM树中剩下的节点内容。
由于依赖于HTML文档里的标签结构的基于DOM树的算法,对于HTML规范语法的要求很宽松,所以不同的设计人员执行的规范程度不一样,比如标签的不匹配等。虽然这种不规范性对于HTML本身的执行不会造成问题,但却可能使构建DOM树的过程濒临崩溃。另外,更加重要的一点在于,解析DOM树的过程效率比较低。因为它会对文档中的每一个Element、Attribute、Comment等都创建一个对象,这样,大量的对象在运行过程中将会被创建和销毁,大大增加了搜索引擎中海量数据的处理的负担。
3 基于统计的网页正文提取技术
传统的网页内容提取方法需要针对不同的数据源创建不同的包装器,基于统计的网页正文抽取技术克服了这样的缺点,它具有了一定的普遍性。不需要样本学习,也大大提高了正文抽取的速度。
Finn等人将HTML看作是字符和标签组成的序列,判断文字是否为正文的依据是使用文本和HTML代码的密度,从而在字符集中的区域提取文字。基本的处理工作如下:
(1)解析HTML代码并记下处理的字节数;(2)以行或段的形式保存解析输出的文本;(3)统计每一行文本对应的HTML代码的字节数;(4)通过计算文本相对于字节数的比率来获取文本密度;(5)最后用神经网络来决定这一行是不是文本的一部分。
李蕾等人提出了一种基于快速傅立叶变换(FFT)的网页正文内容提取算法。采用窗口分段的方法, 利用统计学原理和FFT, 得出每个可能区间的权值, 从而求解出最佳正文区间。其基本步骤如下:
(1)读入HTML文件,转换为Unicode代码;(2)采用窗口分段的方法,将文件切分成若干等长窗口段;(3)应用统计学原理,对字符进行强制编码转换;(4)对每一段窗口作FFT,得到频域的F向量;(5)各段频域互相求差;(6)计算每个区间的权值;(7)依据权值排序;(8)加权平均。
这些方法不必知道HTML网页文件的结构和它所使用的lable标签,不管是含有文本内容的新闻文章还是博客页面,它都能有效的工作。但这种方法对于有表格和链接等标签结构的网页,不能有效的工作,它仅适用于正文文字较集中的网页。
4 基于分块的网页正文提取技术
当Web页面呈现在用户面前时,用户可能下意识地将网页页面划分成几个语义块。基于分块的网页正文提取技术类似于基于DOM的正文提取技术,区别在于前者在对页面分块时,仅仅考虑布局标签或其他页面布局信息。
一种基于HTML