基于分布式爬虫的电影搜索系统的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:rtpy1015
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据的到来,数据的价值显得越来越重要。海量的数据有着巨大的研究价值和商业价值,这其中也包含电影信息数据。数据的来源以前是管理员手动输入相关的数据,现在可以通过网络爬虫代替管理员去获取网络上丰富的电影数据。但传统的爬虫不支持分布式,这往往需要花费大量的时间才能爬取足够多的数据。而分布式爬虫通过多个爬虫协同工作爬取数据可以提升成倍的效率,从而解决单个爬虫爬取效率低的问题。电影搜索系统使用分布式爬虫获取电影数据,分布式爬虫使用了Redis数据库和Scrapy爬虫框架。爬虫分为Master端和Slave端,Master端爬虫主要负责解析网页目录页,把匹配的目录页链接存入Redis以便Master后续继续爬取,同时把匹配的详情页链接存入Redis交给Slave端进行后续处理。Slave端爬虫通过查询Redis数据库中详情页链接进行详情页解析并下载数据,下载完数据后通过脚本将数据格式化后存入MySQL数据库中以便网站访问。在爬虫运行过程中,通常会遇到些问题,所以针对这些问题设计了一些中间件来解决。例如通过模仿不同的浏览器发送访问请求来防止爬虫被网站屏蔽,通过爬虫访问时返回的状态码进行不同的应对处理,通过代理IP的方式解决爬虫下载错误等问题。电影搜索系统采用Django的MTV模型进行设计,主要包含电影搜索,电影评价,电影收藏,用户注册与登录,后台管理等功能。用户登录后可以关键字进行电影查询,也可以点击链接进行电影类别,电影年份,电影制作地区等多种类查询,能满足大部分用户的查询需求。最后对电影搜索系统进行了功能测试和性能测试,验证了网站的绝大部分功能都能正常工作。电影搜索系统不仅节省了管理员导入电影资源所需的时间,还给用户提供了一个搜寻电影信息,并与他人讨论电影的场所。
其他文献
近年来,随着无线通信技术的迅猛发展,用户对位置服务的需求也在不断增长。通过智能移动终端获取位置信息并为生活提供帮助,已经成为当下人们生活中不可或缺的一部分。基于位
耍令、番曲流行于宋代市井,并可作为独立歌唱的形式与嘌唱、小唱等同用于唱赚的曲牌连缀中。耍令常含有少数民族音乐成分,番曲更是对北方民族音乐的统称,可歌可舞可奏。鼓板
熊蜂属(Bombus)昆虫是一类重要的传粉昆虫,在维护自然生态系统平衡和农业生产中发挥着十分重要的作用。甘肃省位于青藏高原、蒙古高原、黄土高原和秦岭山地交汇的地带,境内地形、
目的调查运动干预对老年认知功能减退的临床治疗效果。方法选择采用蒙特利尔认知评估量表(Mo CA)筛选出评分低于正常(<26分)的患者200例,随机分为运动干预组和对照组,每组100
实证分析表明,贵州省财政收入主要受省GDP、二三产业产值占比、贵州省工业企业效益、非公有制工业企业产值占工业总产值比重、1994年分税制财政体制改革的影响。因此,要扩大
通过对天水市麦积区部分高中学生的体育意识现状进行研究发现,学生普遍对体育理论知识的认识不足,体育情感意识、动机意识、参与意识存在较大的缺陷,以及场地器材的单调、缺
大数据在传媒管理中的应用、受众议题、传媒创新等都是传媒经济学研究的新议题,大数据应用、受众研究融合不同学科的知识体系,都将为传媒经济学研究开辟广阔的道路。
将"促进教育制度改革,深化素质教育"作为思想指导,将健康第一作为教育改革的方向,培育学生深化体育锻炼的意识,高职院校的体育教师,应当研究新的体育教学理念、评估方式、授
用经食道心脏超声(TEE)检测12例风心病(RIID)及10例非风心病对照组的左房结构及左心耳功能。结果显示:RHD组左房内血栓6例(50%),其中5例血栓位于左心耳内,左房白发超声造影(S
社交网络时代的自我表露已经成为人们的一种生活习惯,网友通过文字、照片、视频等形式将私人物品、生活琐事、个人心得等在社交网络上呈现,并且倾向于展示自己“美好”的一面