基于DOM的网页净化方法研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:javaname41
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet已经成为最重要的信息库。浏览Internet会看到网页中会包含大量和我们关心内容无关的导航条、广告信息、版权信息、以及调查问卷等。这些不相关的内容严重影响了Web信息挖掘的效果。网页净化技术致力于把混乱的网页内容清晰化、结构化、条理化,并清除不相关的内容。网页净化技术已经成为Web信息挖掘的关键技术。介绍了网页净化的相关技术及其在Web信息挖掘中的重要作用,研究了目前流行的网页分割模型,分析了它们的优势和不足。根据目前商业网页的设计风格是“DIV加CSS”风格,并且网页设计师特意把逻辑相关的信息放到同一个<DIV>标签里并用样式表控制布局这样一个事实,提出了一种新的网页分割模型DSS_DOM。该模型识别出网页中的基本数据单元,并划分出整个网页的逻辑区域。研究了基于DSS_DOM模型的网页净化算法,该算法分析了网页噪音的特点,总结出一套评价准则,通过分配权重的方式判断出网页各个逻辑区域的重要性,识别出主题区域和噪音区域,达到了净化网页的目的。利用开源项目Lucene对净化后的网页集建立了索引,在网页净化的基础上实现了搜索功能。实验证明DSS_DOM模型及其算法减少了Lucene的索引量,提高了Lucene的查准率。把DSS_DOM模型及其算法应用于CPCK中文网页分类器,在网页净化的基础上实现了中文网页自动分类。实验结果表明,DSS_DOM模型及其算法明确了各个网页的主题和类别,提高了网页分类的准确性。
其他文献
对等网(Peer-to-Peer, P2P)以其非中心化、可扩展性、健壮性、负载均衡、容错性好等优点,得到了广泛的应用。eMule协议作为一种典型的P2P应用协议因其在文件共享方面具有其独
随着通信技术的发展,无线能量传输已经成为物联网发展的重要组成部分。尤其是近年来,无线传感网络在环境监测、健康医疗等领域的突出表现使其成为人们生活中不可或缺的一部分
随着业务复杂程度的日益提高,业务建模已经成为软件开发中一个重要的环节,而面向领域的业务建模也成为研究的热点。零码平台是面向特定领域的软件生产平台,提供了过程类业务
Ad Hoc网络是一种无固定基础设施的分布式无线多跳网络,具有组网灵活迅速、节点移动自由、抗毁性强等优点,因而广泛应用于军事和民用领域。但是,由于其网络拓扑动态变换,使得常规
随着社会经济的发展,科技的进步,汽车的使用越来越多,随之而来的汽车盗窃问题日益突出。网络式防盗技术在国外市场中已经广泛使用,而在国内汽车防盗市场中,大部分采用的是电
虚拟组织的应用发展对网络和分布式系统中服务和资源的开放性和多样性提出了更高的要求,现今agent的技术正好能满足虚拟组织发展的需求。agent的自治能力和社会能力能提供灵
社会的大力发展,也促进了科学技术的快速发展,尤其在最近的时间,云计算也同样得到迅速的发展,因此,移动云计算在这样的大数据环境下应运而生。基于计算机技术的前提下,学习模
机器学习中,收集有标签数据来建立模型以及调整其中相关参数的过程是非常花费时间和代价的。当有标签数据的数量较少时,我们希望其中的每一个都尽量具有代表性,这样建立的模型才
随着网络的不断发展,搜索引擎已成为人们日常生活中获取信息的重要手段。信息检索是搜索引擎的核心技术。但由于自然语言的多样性、歧义性,传统的基于字符串匹配的关键字检索
数据网格是近年来兴起的一种技术,它将Internet上存在着的大量分散的、独立的、异构的储存系统组织成一个可靠、安全的逻辑意义上的整体,从而为用户提供高效的、高可靠的、可扩