网页正文提取技术的分析与研究

论文部分内容阅读

　　摘要：随着互联网应用的不断开发，基于网页正文提取的技术层出不穷。几种比较经典的提取模型包括：基于DOM树网页提取模型、基于统计的网页提取模型、基于分块的网页提取模型。本文对网页正文提取技术的综合分析与研究，各种网页提取算法的优劣。
　　关键词：网页正文提取技术；经典提取模型的分析与研究
　　中图分类号：TP301.6 文献标识码：A 文章编号：1007-9599 （2012） 22-0000-02
　　1 引言
　　随着信息技术的迅速发展，基于互联网的应用越来越多的受到人们关注。WWW以超文本的形式给用户提供多种类别和形式的信息（包括技术资料、商业信息、新闻报道、娱乐信息等）。可以说，WWW是当今世界上最大的电子信息库，蕴含着许多具有潜在价值的知识。根据中国互联网信息中心（CNNIC）最新报告显示，截至2011年6月，中国网民规模达到4.85亿，较2010年底增加2770万人；互联网普及率攀升至36.2%，较2010年提高1.9个百分点。我国手机网民规模为3.18亿，较2010年底增加了1494万人。手机网民在总体网民中的比例达65.5%，成为中国网民的重要组成部分。人们可以借助移动设备以及计算机，通过互联网寻找任何自己想要的信息，然而，互联网又是一个具有开放性、异构性以及动态性的分布式网络，其资源分布分散、管理结构不一，这就导致了知识获取的困难。如何准确识别并有效提取包含在Web网页中的正文内容是Web智能信息检索[1-2]、文檔自动摘要[3-4]、用户浏览体验等诸多领域的重要工作之一。
　　2 基于DOM树的网页正文提取技术
　　目前在网页信息抽取技术中研究得最多的基于DOM的网页抽取技术，它历属于自动训练的研究方法，也是近些年来发展得最好的技术方法。DOM就是文档对象模型，全称为Document Object Model，它将HTML文档里的标签信息，如Table，List等利用起来，把文档解析成一个逻辑树型结构，节点就是对象。构建完DOM树后，通过将各个节点遍历，对各种非正文信息包括广告，链接群等识别并移除，移除完非正文信息后，正文内容就是DOM树中剩下的节点内容。
　　由于依赖于HTML文档里的标签结构的基于DOM树的算法，对于HTML规范语法的要求很宽松，所以不同的设计人员执行的规范程度不一样，比如标签的不匹配等。虽然这种不规范性对于HTML本身的执行不会造成问题，但却可能使构建DOM树的过程濒临崩溃。另外，更加重要的一点在于，解析DOM树的过程效率比较低。因为它会对文档中的每一个Element、Attribute、Comment等都创建一个对象，这样，大量的对象在运行过程中将会被创建和销毁，大大增加了搜索引擎中海量数据的处理的负担。
　　3 基于统计的网页正文提取技术
　　传统的网页内容提取方法需要针对不同的数据源创建不同的包装器，基于统计的网页正文抽取技术克服了这样的缺点，它具有了一定的普遍性。不需要样本学习，也大大提高了正文抽取的速度。
　　Finn等人将HTML看作是字符和标签组成的序列，判断文字是否为正文的依据是使用文本和HTML代码的密度，从而在字符集中的区域提取文字。基本的处理工作如下：
　　（1）解析HTML代码并记下处理的字节数；（2）以行或段的形式保存解析输出的文本；（3）统计每一行文本对应的HTML代码的字节数；（4）通过计算文本相对于字节数的比率来获取文本密度；（5）最后用神经网络来决定这一行是不是文本的一部分。
　　李蕾等人提出了一种基于快速傅立叶变换（FFT）的网页正文内容提取算法。采用窗口分段的方法，利用统计学原理和FFT，得出每个可能区间的权值，从而求解出最佳正文区间。其基本步骤如下：
　　（1）读入HTML文件，转换为Unicode代码；（2）采用窗口分段的方法，将文件切分成若干等长窗口段；（3）应用统计学原理，对字符进行强制编码转换；（4）对每一段窗口作FFT，得到频域的F向量；（5）各段频域互相求差；（6）计算每个区间的权值；（7）依据权值排序；（8）加权平均。
　　这些方法不必知道HTML网页文件的结构和它所使用的lable标签，不管是含有文本内容的新闻文章还是博客页面，它都能有效的工作。但这种方法对于有表格和链接等标签结构的网页，不能有效的工作，它仅适用于正文文字较集中的网页。
　　4 基于分块的网页正文提取技术
　　当Web页面呈现在用户面前时，用户可能下意识地将网页页面划分成几个语义块。基于分块的网页正文提取技术类似于基于DOM的正文提取技术，区别在于前者在对页面分块时，仅仅考虑布局标签或其他页面布局信息。
　　一种基于HTML标签的网页内容发现方法是Shian-Han Lin等人提出的。这种方法先找出所有标签及其所含内容，把每一个

块看成是一个内容块，然后计算内容块内关键字的嫡值，来确定每个内容块的嫡值，这个嫡值是指出现在整个网页簇中的特征词的权重。利用贪心法动态的选择墒值的闭值，找出含有有用的信息内容块。实验证明这种方法的召回率和准确率都较高。
　　一些人提出基于视觉特征的网页分块法VIPS（Vision-based Page Segmentation），旨在基于页面视觉表示提取Web页面的语义结构。对应于一块。每个节点将赋予一个值（凝聚度）指明基于视觉块中内容的凝VIPS算法全部利用页面的布局特征。首先，结合DOM树以及一些视觉提示信息得到页面的基于视觉的内容结构。根据一定的语义关联，利用字体、颜色、大小等网页版面特征，将整个网页表示成一棵HTML-DOM树；从HTML-DOM树中找出所有合适的块，然后提取这些块的隔离物。这里，隔离物是Web页面中的水平线或垂直线，在视觉上不与任何块相交。基于这些隔离物可以构造web页面的语义树。一个web页面可以表示成块即为语义树的叶节点的集合。与基于DOM的方法相比，由VIPS得到的分割聚集了更多的语义信息。由于噪声信息，如导航、广告、修饰等，经常放在页面的特定位置上，所以很容易去除。具有不同主题的内容区分为分离的块。
　　基于特定标签的分块方法局限于文字内容比较集中的网页。实际情况中的网页样式结构和

标签的嵌套关系也十分复杂，网页的正文内容不一定都是在最底层的

标签或

标签中。因此，以上所述方法很有可能会遗漏部分正文信息。而基于视觉特性的分块方法比较复杂，运用的启发知识往往较为模糊，需要人工不断地总结调整规则，规则较多，因此如何保证统一的规则集也是一大难点。
　　5 总结
　　前面对已有的国内外主流的网页提取技术做了总结和归纳，总结传统的网页提取技术，我们发现其在复杂性和准确率上很难达成统一：
　　1）经典研究以字符串匹配和树形结构匹配为基础]，尽管可以很好反映Web文档的结构，但是其时间复杂度至少为，很难满足Web应用实时性需求；2）基于统计学提取方法只适用于正文文字较集中的网页，如果段落间有表格或链接等标签丰富的结构，就不能有效处理了；3）基于分块和视觉的提取方法运用的启发知识往往较为模糊，需要人工不断地总结调整规则，规则较多，很难找到统一的规则集，很难普及使用。
　　总之，网页正文提取技术目前尚属一个较新的领域，也是当前的一个研究热点。虽然国外在这方面的研究取得了一定的进展。但在理论和技术上仍然存在着诸多困难和局限性。尤其是很难再复杂性和准确率上达成统一，为此，本论文试图进行尝试新的研究，利用中文文字自身的特点，通过一种基于神经网络的正文提取的新方法让计算机自动识别正文行。然后根据识别的正文行标记，对网页进行分块，最后选择最优分块作为网页正文。
　　[作者简介]
　　杨丽萍（1976-），女，籍贯：黑龙江省海伦市，讲师。硕士学位，研究方向：数据挖掘

其他文献

浅析现代包装设计的本土化情结

一、现代包装设计在全球主义形态空间中的文化选择　　包装设计的本土化是指各国各民族的差异,在包装话语及其使用方式诸方面的体现,不同的地区有其特殊的地域环境、气候条件

期刊

丹江口大坝加高工程全线到顶

5月27日凌晨，随着丹江口大坝溢流14坝段中墩堰面浅宽槽最后一罐混凝土平稳入仓，历时8年，由葛洲坝集团承建的南水北调中线龙头工程一丹江口大坝加高主体工程混凝土施工全线结束，大

期刊

丹江口大坝加高工程混凝土施工南水北调中线水利枢纽改扩建工程丹江口水库主体工程蓄水条件

论美术院校学生创作能力的培养

21世纪是知识经济时代,是综合国力竞争的时代,更是人才竞争的时代.在这个时代背景下,高等学校的地位和作用显得愈来愈重要.……

期刊

浅析新时期高中数学有效性教学方案

随着高中数学改革的不断深入,数学课堂有效性教学方案逐渐引起社会各界的重视。有效性教学方案以培养学生的综合思维素质为目标,在这个过程中,不断增强学生的逻辑判断能力、

期刊

高中数学有效性教学着力点教学效益

浅谈网络管理技术与发展趋势

计算机网络技术的发展和应用，对于经济发展具有非常积极的促进作用。目前，计算机网络技术已经在公司企业经营以及我国居民生活中得到了广泛的普及，优化了企业的生产效率和管理水

期刊

网络管理技术问题不足发展趋势

浅谈现代室内装饰风格倾向

家是每个人避风的港湾,居室环境直接影响着人们的精神状态、身心健康和生活质量,屋宽未必美,室雅何需大.居室只有通过精心设计、合理布置以及优良施工,才能体现出家的温馨和

期刊

利用数据挖掘工具分析上网流量

本论文利用SQL Server2005中的数据挖掘工具对某单位访问外网的流量及相关信息进行了分析。通过利用聚类、决策树、Naive Bayes等模型得出了影响访问流量的几个关键属性。根

期刊

数据挖掘流量SQLServer2005Data miningFlowSQL Server2005

为现代艺术"鼓与呼"--艺术从传统发展到现代的逻辑昭示

关于传统艺术与现代艺术的争论由来已久.有人认为只有前者才是真正的艺术;后者简直就是瞎胡闹,是物质世界与科学技术高度发达后,人类精神家园反而荒芜的反映.有人认为现代艺

期刊

校园网格资源描述与发现

构建校园网格是解决校园网中资源孤岛问题的有效途径。针对校园网格中资源的描述和发现机制进行研究，提出了IKDF＋词汇集分类描述资源的方法。首先给出校园网格资源描述词汇集，基

期刊

校园网格资源描述RDF词汇集资源发现Campus gridResource dcscdptionRDFVocabularyResource disco

浅析医药部门如何应用计算机管理——计算机管理在医院档案部门的应用

在经济日新月异的今天，计算机的应用已经深入到生活、工作的各个方面，也对于传统的档案工作带来了挑战。本文不仅介绍了医院档案部门如何应用计算机技术对于医院的人事档案的管

期刊

计算机管理档案信息必要性优势建议Computer ManagementFile informationNecessityAdvantageRecomm

与本文相关的学术论文