基于生物医学文献数据的分布式爬虫项目设计与实现

来源 :宁夏大学 | 被引量 : 0次 | 上传用户:bccom
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,人们对于海量数据的发掘和应用,预示着新一波生产率增长和消费者盈余浪潮的到来。国际数据公司的研究结果统计,2011年全球产生的数据量高达1.82ZB。与此同时,由于蛋白质测序技术、基因测序技术的突破更一步促进了生命科学领域数据的飞速增长。生命科学领域的数据已经达到了惊人的地步,相关医学文献的数据资源也随之暴涨。但是,医学研究者和医疗工作者对于医疗文献的利用有缺陷,无法发挥文献最大价值,因此,对于医疗文献数据的爬虫和分析具有非常重要的价值。本文先研究了网络爬虫的基本原理,网络爬虫的分类和网页分析算法。对于反爬虫,分布式爬虫框架Scrapy和动态网页抓取技术进行了介绍,由此提出了 Scrapy-Redis-Selenium+PhantomJS的分布式爬虫框架来实现对于PubMeb网站的爬虫系统。系统主要实现相关主题文献的标题和摘要的数据提取。最后为了方便于用户使用,提出用Qt开发框架来实现爬虫系统的UI界面,使得用户能够更加方便的操作使用爬虫。最后,对本文进行了总结,提出了进一步优化的方向。总之,本文的主要在于设计实现基于生物医学数据的分布式爬虫,该系统开发过程容易,扩展方便。系统设计和实现解决了以往爬虫对动态网页支持的问题,同时信息采集速度得到了提高。为PubMeb网页的分布式爬虫提供了技术手段,能够更好的获取相关医学文献数据。
其他文献
在现代化进程中,知识的力量是最大的,针对目前国内卷烟工业企业信息化建设水平的现状,利用信息化技术,建立卷烟工业企业知识成果管理系统,是增强企业的知识管理能力,提高企业的创新
<正>TPI代表生产性能、体型、生产寿命和繁殖力等性状综合为一个数值的指数,即总性能指数。TPI值越大代表该牛的综合遗传性能越好。美国荷斯坦协会最新发布的8月份公牛后测成
当前边缘群体的存在实际上已成了一个社会问题。解决好这个社会问题不仅关系到农村和城市的社会进步,而且关系到全面建设小康社会目标的实现。只有坚持科学发展观,才能从根本
本文介绍了Intranet的基本原理和它的网络体系的结构,并进一步阐述了怎样选择Intranet的硬件设备以降低建网成本,需要作哪 些主要的软件配置。
"十一五"后期,国务院批准的区域性规划是我国主体功能区布局基本形成的重大举措,是国家总体战略的具体化,也是制定"十二五"规划的重要依据。区域经济规划的核心就是区域分工,分工
低碳交通是一种高能效、低能耗、低排放、低污染的新型交通发展模式。首先分析了河北省城市交通碳排放现状。在此基础上,计算出了1991—2012年间河北省城市交通的碳排放量,分析
<正> 贝母是一种名贵的中药材,主治烦热、消痰、润肺、止咳等。贝母是中药配方的常规用药,同时还可以贝母为主要原料制成多种制剂的中成药。近年来品种增加,销量上升,因此需
利用一个3×5×1的3层BP神经网络结构对高压LDMOS的器件性能进行优化设计。将3个重要的工艺参数n-drift层注入剂量、p-top层注入剂量和p-top层长度作为网络的输入,LDMOS击穿
采用CLSVOF(coupled level set and volume of fluid)方法,以空气和水为介质对矩形截面蛇形微通道内气液两相流动进行模拟研究。验证模型的合理性后,系统地研究了表面张力,液相
在设计的新型微孔分散轮盘塔中,采用微孔分散技术对萃取过程进行强化传质,以磷酸/水/TBP+煤油为实验体系,研究了该萃取设备净化湿法磷酸的萃取特性。考察了孔径为75μm的微孔