论文部分内容阅读
随着互联网的迅猛发展,WEB所承载的数据与日俱增,其信息冗余、形式多样、处理困难等问题也越来越突出,因此,WEB信息提取应运而生。又由于WEB页面中包含了大量的与主题无关的信息,影响了用户从中快速定位并获取主题内容。所以,对页面主题信息的提取显得尤为重要,其不但可以节省用户大量的时间和精力,而且提取结果也可以用于数据挖掘等各个方面。WEB信息提取主要针对无结构或者半结构化的WEB页面,且主流大多基于HTML结构。在已有的相关研究中,研究者在关注HTML标签的结构的时候要么忽略了HTML标签的语义信息,要么忽略了标签的语义信息对其包含的文本内容的影响。本文综合考虑标签的结构、语义以及语义对其文本内容的影响,提出了一种基于DOM树节点重要度的WEB主题信息提取方法,研究工作包括以下内容:(1)引入了DOM树节点重要度。由于标签的结构和语义信息具有关联关系,综合考虑二者,将标签分为不同的类别,对应到DOM树中节点的分类,主要包括块节点、行节点、视觉节点、链接节点、文本节点、其他节点。考虑到每类节点对主题信息的影响不同,为不同类型的节点设置相应的影响因子,并定义节点重要度来统一表示DOM树节点对主题信息的影响。(2)提出了扩展DOM树模型。为了防止对DOM树的处理过细,扩展DOM树模型对其进行了简化,只保留可以承载主题信息的块节点。在将非块节点合并到块节点的过程中,同时修改节点重要度,考虑到标签的语义信息对其文本内容的影响,不同类型的节点进行合并时,节点重要度计算方法不同。一旦合并完成后,就可以得到带有节点重要度的扩展DOM树模型。(3)给出了基于扩展DOM树模型的WEB页面主题信息提取方法。包括四个步骤:页面清理、构建扩展DOM树、扩展DOM树去噪、主题信息提取。其中,依据节点重要度,通过设置节点重要度阈值,来对扩展DOM树去噪。最后实现了系统原型并通过实验分析了节点重要度阈值的选取,验证了方法的有效性,证明了该方法具有较好的提取效果。