主题网络爬虫的并行化研究与设计

来源 :西南石油大学 | 被引量 : 0次 | 上传用户:WXY0216
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的普及,数据产生的速度不断加快,数据量不断增长。搜索引擎提供的查询结果数量虽能够满足普通用户的需求,但不足以支持科研人员在主题领域的数据分析。本文以如何获取主题信息作为研究问题,根据实际需要,研究使用主题网络爬虫从互联网中高效地采集相关数据。文中采用集群并行化处理的思想以及改进的网页相似度判定算法采集网页并判定网页信息主题相关性,从而获取信息。研究工作分为三部分:爬虫工作原理及相关知识、爬虫并行化改进和数据采集过程中文本主题相关性的判断。首先,爬虫是搜索引擎的重要组成部分,以搜索引擎和Web遵循的HTTP协议为起点,进而研究了爬虫的采集流程。其次,在普通爬虫流程的基础上,基于常用搜索策略提出了多策略融合的搜索算法,改进了原有搜索效率低下的问题,达到效率成倍提升的效果。接着,互联网的数据规模促使爬虫采用并行化方式提高效率,根据爬虫各部分的需求以及数据的特点采用了合适的并行框架:包括存放URL多队列的RabbitMQ、URL去重的内存级数据库Redis、处理网页数据的并行计算框架Storm和分布式数据库MongoDB。最后,提出以标题为中心的精简内容子树构建网页主要内容,并对其应用向量空间模型和语义结合的判别算法对网页进行主题识别,提高了网页主题相关的识别率。通过对系统架构以及各模块的设计与实现,并以“大数据”为主题对系统进行测试,结果表明系统能够识别与“大数据”相关的网页,准确率最高达到82%,且经过并行化的改进,系统效率和稳定性有所提升,解决了中小型爬虫自主采集相关主题网页的问题,获取到的数据对后续的分析也有着积极作用。
其他文献
依托华中农业大学楚天学院软件工程专业,以培养学生实践能力和创新能力为目标,对Java课程群教学平台进行深入了研究。该系统可以实现在线课件预览或下载、问题答疑、作业提交
中小企业融资难问题由来已久。互联网金融模式的出现为中小企业融资带来了曙光。本文介绍了几种典型的互联网金融融资模式,希望能够为中小企业缓解融资压力提供一些参考。
裸身搜查是保护警员安全和发现物证的一种重要方式,但缺乏法律控制的搜查行为可能会严重侵犯公民的人身权利与人格尊严。裸身搜查法律控制需要在人权保护与犯罪防范这两种价
建立了PEG/(NH4)2SO4双水相体系萃取富集,结合液相色谱分离分析多种蛋白质的方法。考察了无机盐种类和浓度、PEG分子量、pH值和温度等因素对双水相形成以及对细胞色素C、肌红
板凳坐得住,阵脚稳得住,重担扛得住,学问站得住,机遇抓得住,措施靠得住,人气凝得住,佳绩拿得住。
为检测人脑胶质瘤浸润淋巴细胞(TIL)的来源及其体外抗肿瘤活性,本实验应用免疫组化方法分别测定10例人脑胶质瘤TIL提取前、提取后及体外经白细胞介素-2(IL-2)刺激增殖后不同时间的细胞成分及其亚
文章首先通过ADLIB3现代图书管理系统收集零借阅数据,然后对笔者所在学院的图书馆的零借阅数据进行分析,并给出了零借阅产生的根本原因,最后提出了降低馆藏图书零借阅率的优
西安市碑林历史街区作为西安市仅存的两个历史街区之一有着极高的历史文化价值。论文基于分析碑林历史街区形成的原因从空间布局、肌理特点、空间尺度和平面形态四个方面研究
文章从多个方面,结合作者数年的教学实践,分析了大学数学概念教学的重要性,讨论了如何做好数学概念教学,达到揭示定义内涵、便于学生理解、培养学生逻辑思维能力的目的。
期刊