基于标签特征向量的网页去噪声研究及其应用

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:yx065781080
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为Internet主要载体的网页(Web Page),其内容丰富多彩,很多与网页主题无关的内容,如网页模板、文字链广告、版权信息等网页噪声对信息提取的准确性造成了很大影响。目前已经有一些网页文本去噪声模型及方法,并且这些模型和方法对某种类型的网页能够取得不错的效果,如CSS模型和基于视觉分块的方法。但这些模型和方法也存在一些问题:这类方法往往局限于一类网页,过多的阈值设定,缺乏通用性。本文提出了基于网页标签特征的文本去噪声方法,具体方法如下:首先,对网页叶子节点建立特征向量集合。由于网页标签的不规范使用,使得有些标签节点是文本和其他标签的混合节点,为了防止文本信息丢失,对DOM树进行正则化。按照特征定义对DOM树进行标注,遍历DOM树建立特征向量集合。其次,对特征集合进行聚类。根据得到的向量集合,采用聚类算法进行聚类,得到K个类。最后,选取具有较强文本特征的类,选取中心向量的模最小的那个类作为目标类,并且进一步去噪声。基于网页标签特征的模型具有两个特性。第一,将网页节点转变成空间的点,从而使得当前流行的数据挖掘技术,如聚类算法,能够成功地应用到网页去噪声的方法中。这也是本文的一个重要贡献。第二,该方法是一种局部性方法,也即不需要对许多网页建立模型。基于网页标签特征的模型能够有效克服其他一些方法的不足:该模型主要使用了聚类个数这一参数,对参数的依赖较小;该模型不局限于某类网页;通过类的特征还可对网页进行分类。实验表明,该方法能够对不同类型的网页去噪声,并且取得很好的效果。
其他文献
进入二十一世纪以来,随着互联网的迅速发展,IT企业需要将其业务和产品包装成了服务,以达到在互联网上共享服务的目的。论文根据国家“十一五”科技支撑计划重大项目“现代服
基于角色的访问控制模型是近十几年来在自主访问控制和强制访问控制的基础上发展起来的一种重要的访问控制技术。基于角色的访问控制模型的特点是通过分配和取消角色来完成用
在信息社会中,随着计算机技术、通信技术、网络技术的快速发展,网络已成为人们获取信息的一个重要途径。人们预测,在不久的将来网络媒体将会取代平面媒体成为人们获取信息的
计算机软件技术广泛应用于各个领域,人们对于软件系统的可靠性要求日渐提高,实时软件可靠性是关注的焦点之一,而软件可靠性测试是提高软件可靠性的一个重要方法。随着面向对
随着计算机的普及应用和计算机网络的飞速发展,在过去若干年里,无论是商业企业、科研机构或者政府部门,各个领域都积累了海量的并以不同形式存储的数据。面对如此多的数据,人们不
在当前的网络体系结构中,IP地址存在着语义过载问题,即它既作为主机的身份标识符,又作为主机的位置标识符。由此导致主机在移动性和多穴的实现上遇到一系列难题,同时这种语义
随着人类经济、政治及文化活动的不断发展和科学技术水平的不断提高,人们之间的信息交流日益频繁。通信的形式和种类也越来越多,声音和图像具有直观性强、承载的信息内容丰富
随着计算机技术的发展和网络技术的进步,以提高软件灵活性、扩展性为目的的中间件技术得到越来越多的关注。同时,国内城市监控系统的需求也在日益增长。为了适应国内城市监控
在信用卡欺诈检测、股票和证券市场交易(金融分析)、网络入侵监测、社交网络分析等现实世界的行为活动中,数据以无限的、实时的、动态的流形式出现。根据数据流无穷、实时、
3GPP于R8中提出了基于IMS的融合多媒体会议需求,该需求定义融合多媒体会议是融合了消息、语音、视频和数据的多媒体会议,并且具有会议策略、会场控制、子会议等高级功能的多