面向Web的信息收集工具的设计与开发

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户：wwj88888888

【摘要】

：

随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处

【作者】

：

潘春华武港山

【机构】

：

南京大学计算机软件新技术国家重点实验室,南京大学计算机科学与技术系江苏南京210093

【出处】

：

计算机应用研究

【发表日期】

：

2002年06期

【关键词】

：

网络爬虫页面内容数据库存万维网(WWW) Web 页面收集链接关系信息收集页面信息互联网领域

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的发展以及网上信息的日益丰富 ,传统的信息处理已经延伸到互联网领域。在对互联网上的信息进行处理时 ,常常要将分布在互联网各处的Web页面下载到本地供进一步处理 ;这便是所讨论的Web页面收集工具的核心功能。该页面收集系统在综合使用Web页面间的链接关系和页面内容的基础上 ,增加了多层次的页面过滤模块 ,可用来收集特定领域内的Web页面 ;同时可采用多机并行收集的方法提高页面收集的效率 ;采用大型数据库存放元收集信息 ,并对收集到的页面进行压缩 ,能够支持海量数据的收集 ;动态更新机制的实施使得下载到本地的页面信息能够得到及时的更新。 With the development of the Internet and the increasingly rich online information, traditional information processing has been extended to the Internet. When dealing with information on the Internet, it is often necessary to download Web pages distributed throughout the Internet for further processing; this is a central feature of the web page collection tool in question. The page gathering system adds a multi-level page filtering module based on the link relation and the page content of the web pages in combination, and can be used to collect web pages in specific fields. In the meantime, the method of multi-machine parallel collecting can be used to improve the page The efficiency of data collection; the collection of information using a large database storage element, and the compression of the collected pages can support the collection of huge amounts of data; and the implementation of a dynamic update mechanism enables the download of local page information to be updated in time.

其他文献

切实保障困难职工的生活

去年,笔者对启东市2003年度的80余名特困职工和部分困难职工的生活状况作了较为系统的调查。调查发现,尽管社会各方面都对困难职工特别是特困职工进行 Last year, I made a

期刊

生活状况送温暖工程援助活动一口清家庭成员决策依据日捐领导报告党员干部单亲家庭子女

文件的消退效果及消退剂检出

阐述了消退文件所用消退剂的化学消退机理 ,对常见消退剂消退各种文字色料的效果及消退剂种类和成分的物理仪器检出进行了实验研究。 The chemical regressive mechanism of

期刊

消退文件消退效果荧光检验纯蓝墨水变造侦查范围能谱仪无机元素检材NaClO

使运营商更好地推进业务

2008年4月1日,中国移动TD-SCDMA正式放号,3G在中国正式启航。随之而来的各种新业务、新应用将会层出不穷,移动通信产业已经步入业务制胜、应用制胜的时期。而每一项新业务的

期刊

移动通信产业运营商中国移动手机定制终端市场预存话费终端零售产业链促销策略硬件支持

思路创新拓宽“幸运卡”发展空间

“幸运邮天下”是集团公司推出的一项极具潜力新业务。安徽省阜阳市邮政局创新营销思路,在“幸运邮天下”日常营销的基础上,巧借合作伙伴——体彩中心之力,别出心裁开发出“

期刊

刮刮安徽省阜阳市营销思路思路创新邮政局刮刮卡销售网点销售型销售能力市场品牌

用科学发展观统领公安交通管理工作努力实现道路交通事故预防的新突破

用科学发展观统领公安交通管理工作,努力实现道路交通事故预防的新突破,必须要认清形势,抢抓机遇,强化预防事故理念;要正视现实,改革创新,实现道路交通安全管理长效机制;要突

期刊

交通管理交通事故预防交通安全管理科学发展观交通勤务交通民警抢抓机遇从严治警执法形象警务改革

小学低年级音乐节奏教学初探

对于音乐人而言,节奏便是音乐的生命源泉,音乐的重要组成部分便是音乐节奏,每个人从出生就一直生活在音乐的世界里,音乐节奏随处可见,一个人学习音乐的基础便是拥有强烈的节

期刊

音乐节奏小学低年级节奏教学乐理知识个人学习节奏感人从一首音乐课堂教学生命源泉

另类

自然科学中有两门学科没有尽头。一门是数学，１０个阿拉伯数字加上些字母、符号，就可以将数字游戏玩儿到无穷无尽；另一门是音乐；５条平行的直线、几个简单的符号；就可以尽情地发挥想像

期刊

胡鸿飞自由翱翔吹拉弹唱陈景润训练专家物理老师李敏宽中国体育李庆余数字游戏

一切为员工的生命着想——中钢吉林铁合金股份有限公司安全生产纪实

机器隆隆,炉火熊熊、钢花飞溅……手握长钎、头戴安全帽的工人,正在高大的电炉前忙碌着,在飞溅钢花映衬下无比壮观。这是记者在中钢吉林铁合金股份有限公司生产现场看到的场

期刊

吉林铁合金厂封闭炉硅锰合金国家优质产品奖马虎大意德正知识考试钨钼微碳铬铁钼铁

一种新型防反流型食管支架及其临床应用

目的：证实一种新型食管支架具有治疗食管狭窄并有抗胃食管反流（ＧＥＲ）的作用。方法：１０例有梗阻症状的食管、贲门恶性肿瘤患者，安装防反流型支架后，分别观察症状及体征，监测２４ｈ食管ｐＨ值，并进行食管

期刊

食管支架胃食管反流防反流型支架支架术防反流支架普通金属支架酸反流胃内容物反流贲门切除术临床应用

在冲突中前行

“2008欧洲顶级商业奖”(EUROPE’S TOP BUSINESS AWARDS)于3月揭晓。“年度商业领袖奖”颁给诺基亚首席执行官康培凯。作为全球第一大手机厂商诺基亚的掌门人, EUROPE’S T

期刊

诺基亚康培商业领袖第一大竞争者Apple技术整合手机软件高尔夫信息更新

面向Web的信息收集工具的设计与开发

与本文相关的学术论文