基于DOM树节点重要度的WEB主题信息提取研究

来源 :西南大学 | 被引量 : 0次 | 上传用户：liongliong539

【摘要】

：

随着互联网的迅猛发展,WEB所承载的数据与日俱增,其信息冗余、形式多样、处理困难等问题也越来越突出,因此,WEB信息提取应运而生。又由于WEB页面中包含了大量的与主题无关的

【作者】

：

马金娜

【机构】

：

西南大学

【出处】

：

西南大学

【发表日期】

：

2016年期

【关键词】

：

WEB信息提取扩展DOM树节点重要度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的迅猛发展,WEB所承载的数据与日俱增,其信息冗余、形式多样、处理困难等问题也越来越突出,因此,WEB信息提取应运而生。又由于WEB页面中包含了大量的与主题无关的信息,影响了用户从中快速定位并获取主题内容。所以,对页面主题信息的提取显得尤为重要,其不但可以节省用户大量的时间和精力,而且提取结果也可以用于数据挖掘等各个方面。WEB信息提取主要针对无结构或者半结构化的WEB页面,且主流大多基于HTML结构。在已有的相关研究中,研究者在关注HTML标签的结构的时候要么忽略了HTML标签的语义信息,要么忽略了标签的语义信息对其包含的文本内容的影响。本文综合考虑标签的结构、语义以及语义对其文本内容的影响,提出了一种基于DOM树节点重要度的WEB主题信息提取方法,研究工作包括以下内容:(1)引入了DOM树节点重要度。由于标签的结构和语义信息具有关联关系,综合考虑二者,将标签分为不同的类别,对应到DOM树中节点的分类,主要包括块节点、行节点、视觉节点、链接节点、文本节点、其他节点。考虑到每类节点对主题信息的影响不同,为不同类型的节点设置相应的影响因子,并定义节点重要度来统一表示DOM树节点对主题信息的影响。(2)提出了扩展DOM树模型。为了防止对DOM树的处理过细,扩展DOM树模型对其进行了简化,只保留可以承载主题信息的块节点。在将非块节点合并到块节点的过程中,同时修改节点重要度,考虑到标签的语义信息对其文本内容的影响,不同类型的节点进行合并时,节点重要度计算方法不同。一旦合并完成后,就可以得到带有节点重要度的扩展DOM树模型。(3)给出了基于扩展DOM树模型的WEB页面主题信息提取方法。包括四个步骤:页面清理、构建扩展DOM树、扩展DOM树去噪、主题信息提取。其中,依据节点重要度,通过设置节点重要度阈值,来对扩展DOM树去噪。最后实现了系统原型并通过实验分析了节点重要度阈值的选取,验证了方法的有效性,证明了该方法具有较好的提取效果。

其他文献

基于环境建模的传感数据收集与插值算法研究

无线传感器网络中,现有数据收集方式多采用静态Sink的方案,易造成Sink周围的节点负载过重而过早死亡,导致网络分割,形成监测盲区；另一方面由于传感器节点的随机部署,易形成不

学位

无线传感器网络时空相关性插值Voronoi网格移动Sink

面向物联网的语义服务总线

21世纪,物联网的发展越来越迅速,应用也越来越吸引人,获得了人们广泛的关注。人们普遍使用的手持设备,比如手机、平板电脑等,设备异构性差别很大,互相之间的设备协作也因此变

学位

物联网设备服务服务总线OWL-S服务查询匹配web服务

虹膜识别技术研究与实现

生物特征识别技术在当今世界中已经得到了广泛的应用,虹膜因其唯一性、稳定性,可采集性,非侵犯性等优点而逐步受到人们的重视,已经发展成为了主流的生物特征识别手段。它以其

学位

虹膜识别虹膜定位原型系统Hough变换Gabor滤波器

基于用户兴趣模型的信息检索研究

随着互联网的迅速发展与普及,网络已经成为信息传播的主要渠道,人们可以方便地从网络上获取各种信息,但是,现有的信息检索系统基本都没有考虑用户的兴趣偏好,只是被动的、僵

学位

信息检索用户模型特征提取机器学习

遗传规划算法的改进及应用

进化算法是一类模拟自然界“优胜劣汰,适者生存”的全局寻优技术,它的特点是针对一组随机的候选个体进行复制、交换和变异等遗传操作,逐步迭代逼近最优解。20世纪60年代,一些

学位

遗传规划小生境数据拟合科研机构信用评价

无线AdHoc网络中AODV路由协议的研究与改进

无线通信技术和计算机网络的迅猛发展,为无线Ad Hoc网络的产生奠定了基础。它是一个多跳的、临时的、对等的自治系统,它由一组带有无线收发信装置的移动节点组成。该网络具有

学位

Ad Hoc网络AODV路由协议AOMDV多径

基于增量聚类和ReliefF的特征选择方法

随着计算机科学技术的迅速发展以及人工智能技术的兴起,模式识别得到越来越广泛的应用。人们在进行模式识别时,通常需要采集数量巨大的原始特征,使得原始特征空间的维数达到

学位

特征选择Relief增量聚类

数字图像篡改中的人工模糊被动盲取证技术研究

随着图像编辑软件的广泛使用，对数字图像的修改变得越来越容易，其真实性受到威胁，如果在一些对图像的原始性要求比较高的领域内出现伪造的数字图像，将会对社会产生十分恶劣的影响

学位

数字图像取证模糊检测灰度异常色调异常PRNU

基于稀疏谱哈图像索引

随着互联网的高速发展，多媒体数据指数级增长的时代已经到来。面对具有海量、高维等新特点的互联网数据，传统的索引和检索方式已经难以满足用户快速而准确的要求。因此，新的、快

学位

语义哈希索引稀疏主成分分析拉普拉斯特征图降维图像索引机器学习

油藏数值模拟中高效等值线生成算法研究

可视化是油藏数值模拟结果数据与工程师之间的媒介,而等值线是可视化的重要表示形式,它同时在气象、医学、地球科学等许多领域也有着重要的作用。本文主要研究了在复杂情况下

学位

油藏数值模拟可视化等值线等值线追踪并行GPU

基于DOM树节点重要度的WEB主题信息提取研究

与本文相关的学术论文