基于主题的微博网页爬虫研究

被引量 : 19次 | 上传用户：gelsy1982

【摘要】

：

随着美国twitter的火热，国内各大微博网站兴起，微博在网民中日益火热。在微博中诞生的各种网络热词也迅速走红网络，微博效应正在逐渐形成，微博成为中国网民上网的主要活动之一。

【作者】

：

曾小虎

【发表日期】

：

2014年01期

【关键词】

：

网页页面分析微博爬虫微博爬虫爬行策略主题相关性分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着美国twitter的火热，国内各大微博网站兴起，微博在网民中日益火热。在微博中诞生的各种网络热词也迅速走红网络，微博效应正在逐渐形成，微博成为中国网民上网的主要活动之一。正是由于微博效应的形成，微博话题在网民之间迅速传递。对于微博信息的获取以及分析，成为重要的研究对象。为方便微博数据的获取，各大网站微博也相继提供了抓取微博的API，但这些API都有访问次数的限制，无法满足获取大量微博数据的要求，同时抓取的数据往往很杂乱。针对上述问题，本文引入网页页面分析技术和主题相关性分析技术，展开基于主题的微博网页爬虫的研究与设计。本文的主要工作有研究分析网页页面分析技术，根据微博页面特点选择微博页面信息获取方法；重点描述基于“剪枝”的广度优先搜索策略的思考以及设计的详细过程，着重解决URL的去重、URL地址集合动态变化等问题；研究分析短文本主题抽取技术以及多关键匹配技术，确定微博主题相关性分析的设计方案；最后设计实现基于主题的微博网页爬虫的原型系统，实时抓取和存储微博数据。本文研究的核心问题是，根据微博数据的特点设计一种基于“剪枝”的广度优先搜索策略，并将其应用到微博爬虫中；同时使用微博页面分析技术使得爬虫不受微博平台API限制，从而让用户尽可能准确地抓取主题相关的微博数据。通过多次反复实验获取原型系统实验结果，将实验结果同基于API微博爬虫和基于网页微博爬虫的抓取效果进行对比分析得出结论：本文提出的爬行策略能够抓取主题相关的微博数据，虽然在效率上有所降低，但在抓取的微博数据具有较好的主题相关性。这实验结果证明本论文研究的实现方案是可行的。

其他文献

论日本近代民族意识的形成和畸变

<正> 民族意识在历史学上是一个比较模糊、颇难界定的概念。在心理学上它是指“由共同经济生活、居住区域、语言习惯及传统等形成的民族共同体对自己民族的归属、地位、责任

期刊

甲午战争前近代日本近代军国主义福泽谕吉民族意识

癸酸甘油三酯对Aβ42转基因果蝇的影响

目的：观察癸酸甘油三酯(Tricaprin,简称Tri)对Aβ42果蝇的爬行力、脑组织超氧化物歧化酶(Superoxide Dismutase, SOD)、ATP的含量及脑组织病理切片的影响。方法：分为5组①野生

学位

阿尔茨海默病癸酸甘油三酯Aβ42转基因果蝇ATPSOD

不其簋略考

<正>在滕州市博物馆馆藏铭文青铜器之中,不其簋以铭文最长、记述事件最详细而堪称佼佼者。不其簋(图1)于1980年出土于滕州市后荆沟村"居龙腰"遗址一西周残墓中,通高26厘米,腹

期刊

不其簋中国国家博物馆铸造工艺窃曲纹秦庄公滕州市博物馆

云南乡镇中学初中化学教师专业化现状及策略研究

随着教师教育全球化的发展，教师专业化成为我国中小学教师改革的主要趋势。当前，我国正在推进对中小学实行的课改活动，对于中小学的教学及教材等方面都有了新的方向和目标，作为一

学位

化学教师专业化乡镇中学现状对策

砂岩薄互层AVO正演模型研究

由于薄互层单个含气砂体厚度较小，较难直接分析出含气结果，可利用AVO技术进行正演模拟，以达到识别油气的目的。为此，以苏里格某工区A井和B井为研究对象，根据实际测井资料及分层数

期刊

AVO砂岩薄互层正演模拟Shuey公式储层识别

函数概念学习的调查研究

函数概念是初中阶段的重点学习内容，也是历年来中考的热点问题。函数概念的学习对于初中学生是一个新的挑战，函数概念也是解决一些实际生活问题时所必须运用的数学模型。初中阶

学位

函数概念函数概念学习掌握学习理论迁移调查研究

泰国清迈大学中文系本科生家庭资本与汉语学业成绩相关性探究

家庭是个人生活的中心，是实施早期教育的“苗圃”，家庭奠定了初步训练的基础。在家庭中，父母对子女最了解，容易因材施教。自上个世纪六十年代，“科尔曼报告”发表以来，国内外研究者

学位

汉语学业成绩家庭资本相关性探究

民主集中制“集中”倾向的诱因与矫正

在一定意义上说,当下中国政治体制的形态是由其设计的基本原则即民主集中制所塑造的。而民主集中制存在的主要缺陷就是其"集中"倾向强而民主性不足。民主集中制"集中"倾向的

期刊

民主集中制历史制度主义政治体制改革民主过程

邹家拳在基层警察队伍擒拿格斗训练中应用的研究

改革开放以来，特别是近十年来，严重暴力犯罪越来越向多元化、武装化、智能化演变，犯罪行为越来越凶残。公安部2007年4月公布，2001年至2006年全国公安机关共有2718名民警牺牲。仅2

学位

邹家拳警察擒拿格斗应用

“六法”与设计艺术审美之关联性探究

在这个审美的世纪，设计艺术审美是值得我们深入研究的课题。本文以中国传统艺术审美准则“六法”为切入点，研究中国传统艺术的文化精神及审美形式规律等方面的内容，从而以“六法

学位

“六法”现代设计艺术审美观

基于主题的微博网页爬虫研究

与本文相关的学术论文