【摘 要】
:
随着信息技术的飞速发展,互联网上的信息数量出现了爆炸式的增长。如何从海量数据中提取并利用有用信息成为一大挑战。网络爬虫的出现有效地解决了这一问题,它可以按照人们设
论文部分内容阅读
随着信息技术的飞速发展,互联网上的信息数量出现了爆炸式的增长。如何从海量数据中提取并利用有用信息成为一大挑战。网络爬虫的出现有效地解决了这一问题,它可以按照人们设计的规则,凭借计算机的强大处理能力,快速地获取并提炼出有价值的数据。相对于人工获取信息的方式,网络爬虫获取信息的方式具有更高的效率。本项目通过爬虫获取网络资源,使用分布式数据库系统存储爬虫获取的海量数据,完成对数据的分析和处理,进而生成排行榜,并通过榜单页面进行展示。基于以上规划,本文设计和实现了基于分布式爬虫的排行榜展示系统。该系统已上线运行,取得了预期效果。本文主要工作有以下四个方面:首先,基于分布式结构,设计网络爬虫,可以实现即时爬取、基于模板的爬取、基于配置的爬取、增量爬取、随时增减机器数量、随时启停,并且去重率可以达到100%。其次,使用分布式数据库中间件,实现了具有易维护、高可用、易扩展、高速读写等优点的分布式数据库系统,满足了爬虫结果存储和排行榜数据存储两个主要需求。再次,通过对数据的分析和处理,提出排行榜打分算法。根据打分算法产生的排行榜榜单能够获得一个客观的结果。最后,采用MVC设计模式和Spring开发框架,实现相关业务逻辑,设计排行榜web系统,满足系统需求。
其他文献
产教融合是近几年高校教育研究中备受关注的热点之一。文章通过对产教融合背景下红河学院产品设计专业建设中存在的难题及优势进行分析,并进一步探索产品设计专业课程体系的
运用LS-DYNA软件的热固耦合算法,对某型半穿甲战斗部在不同着靶条件下的侵彻过程进行了数值模拟,分析了着靶速度和着角两个参数对于半穿甲战斗部侵彻过程中温升的影响。结果
培训在人力资源战略中的地位愈发重要,培训模式也由单一的讲授培训发展为互动式、多媒体教学、体验式等相结合的混合式培训,管理层对培训的关注点也由最初的效率转变为更具衡
开阳县花梨镇,是贵阳市的“东大门”。站在花梨镇清江村的制高点上,山水相依的乡村美景尽收眼底,乌江支流——清水江纵贯南北。$$在这里,山峦围合清水江,形成了畅流通达的“开州湖
采用壳聚糖和蒙脱土合成了纳米复合材料,考察了不同pH值壳聚糖溶液、反应温度、反应时间和壳聚糖与蒙脱土摩尔比对复合材料有机化程度的影响,用IR和XRD对其结构进行了表征。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食
Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食
Back to yield
公证员在受理公证申请时,首先要明确公证申请人的身份,这就对公证员提出了严格审查的责任要求,但现有的法律法规并未做出相关规定。鉴于审查明确公证申请人身份的重要性,本文
通过扫描电镜观察了虎舌红及其2个新品种红虎舌和绿虎舌的花粉形态特征,并用TTC染色法和离体培养法测定其花粉的活力,比较了虎舌红种内花粉形态及活力的差异,为虎舌红的杂交