基于Web的HTML网页清洗技术的研究与实现

来源 :华北电力大学(北京) 华北电力大学 | 被引量 : 0次 | 上传用户:pigho
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的发展,越来越多的人开始关注Web页面上的信息,因此基于Web的信息提取技术,成为目前数据挖掘领域的研究热点之一.但是Web页面中包含了很多与主题无关的信息,例如弹出的广告、多余的图片以及一些无关的链接等.这些信息严重影响了对Web中有用信息的提取,因此网页清洗变得十分重要.本文在深入分析、研究了Web页面的数据结构和当前网页清洗技术的基础上,提出了基于DOM(Document obiect Model-文档对象模型)树结构的网页清洗技术,并在Eclipse平台上开发了一个网页清洗工具.该工具能够有效地清洗网页中大多数与主题无关的信息,具有很好的实用价值和应用前景.
其他文献
当今企业级应用系统的规模和复杂性与日俱增,采用分布式体系结构的企业应用系统在信息化的进程中逐渐由理论研究走上应用前沿,为企业的信息化注入了无限的动力。然而,分布式企业应用系统的开发环节众多、结构复杂,传统的软件开发方法包括面向对象的设计方法,由于软件复用程度低,很难满足“工业化”软件生产的需求。框架作为现代软件复用技术的重要方式,不仅提供了设计复用,而且实现了功能代码的大粒度复用,为软件开发的大粒
盘古山钨矿广泛发动群众,联系企业实际,认真查找差距,下决心打好四场攻坚战,抓住八项重大举措,千方百计力争企业稳步走出困境。一是思想攻坚战。教育全体职工转变思想观念,要求广大
近年来,快捷高效的大规模三维城市建模与绘制技术在军事国防、城市规划、数字化文物保护、交通导航、反恐怖活动和游戏数字娱乐等领域的应用需求迅速增长。传统的三维城市建
目前,企业级应用开发环境中,面向对象的开发方法已成为主流。对象只能存在于内存中,而内存不能永久保存数据。如果要永久保存对象的状态,需要进行对象的持久化,把对象存储到可以永
为了改善矿井通风条件,浙江建德铜矿从1989年开始进行矿井通风系统改造,成功地将原单翼对角抽出式通风系统改造成两翼对角抽出式通风系统,北翼和西翼分别选用K4OA-NO11和K4OA-NO
据调查,各地培训颈肩腰腿痛理疗或推拿、点穴、刮痧、火疗、正脊、拔罐、水罐等方法,操作麻烦不方便!药酒或骨贴虽方便,可见效慢就不好销。而针灸效果好但难掌握!四川惠仁堂
In the present work the structural information of PbO-doped SnO2 thick film sensor has been investigated with X-ray diffractometer (XRD) and scanning electron m
在线社交网络是一种可为人类提供信息资讯传播、网络资源分享和学习娱乐交流等相关服务的互联网平台,与我们日常的生活密不可分,引发了广泛的关注和应用。当今社交网络平台的安
随着计算机的普及和互联网技术的快速发展,网络上的信息量迅速增长,信息过载问题成为目前首要解决的问题。传统的搜索引擎技术由于被动的服务方式和缺乏个性化等缺点已不能满
随着高速公路信息化的快速发展,收费模式也由单站、单路的收费模式变成大规模联网收费模式。随着网络的规模不断扩充,安全隐患也在不断增加,带来了网络攻击、信息破坏、机密