基于DOM树节点重要度的WEB主题信息提取研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:liongliong539
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,WEB所承载的数据与日俱增,其信息冗余、形式多样、处理困难等问题也越来越突出,因此,WEB信息提取应运而生。又由于WEB页面中包含了大量的与主题无关的信息,影响了用户从中快速定位并获取主题内容。所以,对页面主题信息的提取显得尤为重要,其不但可以节省用户大量的时间和精力,而且提取结果也可以用于数据挖掘等各个方面。WEB信息提取主要针对无结构或者半结构化的WEB页面,且主流大多基于HTML结构。在已有的相关研究中,研究者在关注HTML标签的结构的时候要么忽略了HTML标签的语义信息,要么忽略了标签的语义信息对其包含的文本内容的影响。本文综合考虑标签的结构、语义以及语义对其文本内容的影响,提出了一种基于DOM树节点重要度的WEB主题信息提取方法,研究工作包括以下内容:(1)引入了DOM树节点重要度。由于标签的结构和语义信息具有关联关系,综合考虑二者,将标签分为不同的类别,对应到DOM树中节点的分类,主要包括块节点、行节点、视觉节点、链接节点、文本节点、其他节点。考虑到每类节点对主题信息的影响不同,为不同类型的节点设置相应的影响因子,并定义节点重要度来统一表示DOM树节点对主题信息的影响。(2)提出了扩展DOM树模型。为了防止对DOM树的处理过细,扩展DOM树模型对其进行了简化,只保留可以承载主题信息的块节点。在将非块节点合并到块节点的过程中,同时修改节点重要度,考虑到标签的语义信息对其文本内容的影响,不同类型的节点进行合并时,节点重要度计算方法不同。一旦合并完成后,就可以得到带有节点重要度的扩展DOM树模型。(3)给出了基于扩展DOM树模型的WEB页面主题信息提取方法。包括四个步骤:页面清理、构建扩展DOM树、扩展DOM树去噪、主题信息提取。其中,依据节点重要度,通过设置节点重要度阈值,来对扩展DOM树去噪。最后实现了系统原型并通过实验分析了节点重要度阈值的选取,验证了方法的有效性,证明了该方法具有较好的提取效果。
其他文献
无线传感器网络中,现有数据收集方式多采用静态Sink的方案,易造成Sink周围的节点负载过重而过早死亡,导致网络分割,形成监测盲区;另一方面由于传感器节点的随机部署,易形成不
21世纪,物联网的发展越来越迅速,应用也越来越吸引人,获得了人们广泛的关注。人们普遍使用的手持设备,比如手机、平板电脑等,设备异构性差别很大,互相之间的设备协作也因此变
生物特征识别技术在当今世界中已经得到了广泛的应用,虹膜因其唯一性、稳定性,可采集性,非侵犯性等优点而逐步受到人们的重视,已经发展成为了主流的生物特征识别手段。它以其
随着互联网的迅速发展与普及,网络已经成为信息传播的主要渠道,人们可以方便地从网络上获取各种信息,但是,现有的信息检索系统基本都没有考虑用户的兴趣偏好,只是被动的、僵
进化算法是一类模拟自然界“优胜劣汰,适者生存”的全局寻优技术,它的特点是针对一组随机的候选个体进行复制、交换和变异等遗传操作,逐步迭代逼近最优解。20世纪60年代,一些
无线通信技术和计算机网络的迅猛发展,为无线Ad Hoc网络的产生奠定了基础。它是一个多跳的、临时的、对等的自治系统,它由一组带有无线收发信装置的移动节点组成。该网络具有
随着计算机科学技术的迅速发展以及人工智能技术的兴起,模式识别得到越来越广泛的应用。人们在进行模式识别时,通常需要采集数量巨大的原始特征,使得原始特征空间的维数达到
随着图像编辑软件的广泛使用,对数字图像的修改变得越来越容易,其真实性受到威胁,如果在一些对图像的原始性要求比较高的领域内出现伪造的数字图像,将会对社会产生十分恶劣的影响
随着互联网的高速发展,多媒体数据指数级增长的时代已经到来。面对具有海量、高维等新特点的互联网数据,传统的索引和检索方式已经难以满足用户快速而准确的要求。因此,新的、快
可视化是油藏数值模拟结果数据与工程师之间的媒介,而等值线是可视化的重要表示形式,它同时在气象、医学、地球科学等许多领域也有着重要的作用。本文主要研究了在复杂情况下