分布式银行网站网页信息获取系统实现

被引量 : 0次 | 上传用户:yaoyaosara
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,互联网迅猛发展,网络中流通的Web信息量巨大,其中各国银行网站发布的信息更是受到金融界的广泛关注。对互联网上各国银行网站发布的汇率、利率等财政信息进行长期的统计,也就成为了解其他国家财政、经济政策的一种主要手段。针对当前的实际需求,对网页信息获取及计算技术的研究成为当前和未来一段时期内学术研究的重点。做为我国央行的人民银行,在此方面投入了大量的科研资金,各个地方人民银行也积极地进行这方面的研究工作。针对这一情况,本文展开了基于广域网的分布式银行网站网页信息获取系统的研究与实现。网页信息获取系统(网络爬虫)研究中最重要的是设计构架和关键技术的解决。在吸取了他人技术和经验的基础上,本文设计描述了一个基于广域网的分布式网络爬虫的结构设计,其中包括硬件的构架,和软件的模块划分。硬件部分由一台PC机做控制节点,N台PC机做爬行节点,在广域网中连接。软件部分又分为控制节点软件设计和爬行节点软件设计。然后本文分析了分布式网络爬虫的关键技术的解决方法,比如分布式的各个结点如何协同工作,任务如何分配等等,进而提出了一些实用的算法,解决了这些分布式网络爬虫的关键技术,实现了一个具备健壮性,可扩展性,可配置性的分布式网络爬虫,并就该分布式网络爬虫进行了仔细的剖析。特别是对分布式系统的任务分配,采用了网络性能指标指导预测效果法。最后在该网络爬虫上作了一些测试,包括了单机爬行测试和该网络爬虫的一个应用,即银行网站网页信息的抓取测试。以及对多种分布式系统任务分配的方法指导下实际运行的效果进行了对比,得出网络性能指标指导预测效果法为最佳的任务调度方法。
其他文献
目的探讨载脂蛋白E(apolipoprotein E,ApoE)基因第四外显子多态性与血管性痴呆(Vascular dementia,VD)的关系。方法通过DNA直接测序的方法检查30例VD和30例正常老人ApoE基因第四外
[目的]建立枳壳离体培养再生体系.[方法]采用均匀设计研究了不同时期枳壳茎尖、茎段、芽的愈伤组织诱导、增殖、分化、及生根情况.[结果]愈伤组织诱导率及生长量由高到低为春
夏天无是我国民间常用中草药,治疗中风偏瘫效果较好,已有研究表明,总生物碱是其主要活性成分,近年来关于夏天无的研究备受人们关注。为了进一步深入研究与开发这一优势资源,
地铁是城市轨道交通的重要命脉,其稳定可靠的运行显得尤为重要。地铁综合监控系统是整个地铁系统可靠安全运行的重要保障,研究适合于地铁综合监控系统的可靠性评估方法,有助
冯友兰是中国杰出的哲学家,人生四境界说是其人生哲学体系的核心。冯友兰从人存在的最基本问题出发,根据人对外界事物“觉解”的程度不同,将人生境界由低到高划分成四个境界:
<正> 近年来,卫生学的一个特别迫切问题是研究大气、居室、公共场所、水和食品中化学物对免疫系统的影响。免疫功能障碍降低机体对传染病的抵抗力,增高癌、自身免疫和变应性
本文以环己烷为溶剂,正丁基锂为引发剂,四氢呋喃和五甲基二乙基三胺为微观结构调节剂,二乙烯基苯(DVB)为偶联剂,采用“臂先”和“核先”相结合方法合成星型杂臂共聚橡胶异戊
随着旅游业的蓬勃发展,全球经济的持续发展,出游次数的增加,旅游经验的丰富,消费意识的变化,游客的旅游需求发生了显著改变,旅游者的行为特征越来越对区域旅游产品开发具有战
本文针对汽车变速器齿轮的实体建模和有限元分析进行研究,利用CATIA软件对齿轮三维实体进行建模,然后通过ANSYS通用有限元分析软件分析研究了齿轮接触应力问题。在CATIA环境
随着我国城市化进程的加快,城市人口日益增多,高层建筑数量剧增,其所面临的安全疏散问题也越来越突出,已经成为“9.11”之后国际火灾科学研究的热点。高层建筑拥有一定数量的