基于主题的微博网页爬虫研究

被引量 : 19次 | 上传用户:gelsy1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着美国twitter的火热,国内各大微博网站兴起,微博在网民中日益火热。在微博中诞生的各种网络热词也迅速走红网络,微博效应正在逐渐形成,微博成为中国网民上网的主要活动之一。正是由于微博效应的形成,微博话题在网民之间迅速传递。对于微博信息的获取以及分析,成为重要的研究对象。为方便微博数据的获取,各大网站微博也相继提供了抓取微博的API,但这些API都有访问次数的限制,无法满足获取大量微博数据的要求,同时抓取的数据往往很杂乱。针对上述问题,本文引入网页页面分析技术和主题相关性分析技术,展开基于主题的微博网页爬虫的研究与设计。本文的主要工作有研究分析网页页面分析技术,根据微博页面特点选择微博页面信息获取方法;重点描述基于“剪枝”的广度优先搜索策略的思考以及设计的详细过程,着重解决URL的去重、URL地址集合动态变化等问题;研究分析短文本主题抽取技术以及多关键匹配技术,确定微博主题相关性分析的设计方案;最后设计实现基于主题的微博网页爬虫的原型系统,实时抓取和存储微博数据。本文研究的核心问题是,根据微博数据的特点设计一种基于“剪枝”的广度优先搜索策略,并将其应用到微博爬虫中;同时使用微博页面分析技术使得爬虫不受微博平台API限制,从而让用户尽可能准确地抓取主题相关的微博数据。通过多次反复实验获取原型系统实验结果,将实验结果同基于API微博爬虫和基于网页微博爬虫的抓取效果进行对比分析得出结论:本文提出的爬行策略能够抓取主题相关的微博数据,虽然在效率上有所降低,但在抓取的微博数据具有较好的主题相关性。这实验结果证明本论文研究的实现方案是可行的。
其他文献
<正> 民族意识在历史学上是一个比较模糊、颇难界定的概念。在心理学上它是指“由共同经济生活、居住区域、语言习惯及传统等形成的民族共同体对自己民族的归属、地位、责任
目的:观察癸酸甘油三酯(Tricaprin,简称Tri)对Aβ42果蝇的爬行力、脑组织超氧化物歧化酶(Superoxide Dismutase, SOD)、ATP的含量及脑组织病理切片的影响。方法:分为5组①野生
<正>在滕州市博物馆馆藏铭文青铜器之中,不其簋以铭文最长、记述事件最详细而堪称佼佼者。不其簋(图1)于1980年出土于滕州市后荆沟村"居龙腰"遗址一西周残墓中,通高26厘米,腹
随着教师教育全球化的发展,教师专业化成为我国中小学教师改革的主要趋势。当前,我国正在推进对中小学实行的课改活动,对于中小学的教学及教材等方面都有了新的方向和目标,作为一
由于薄互层单个含气砂体厚度较小,较难直接分析出含气结果,可利用AVO技术进行正演模拟,以达到识别油气的目的。为此,以苏里格某工区A井和B井为研究对象,根据实际测井资料及分层数
函数概念是初中阶段的重点学习内容,也是历年来中考的热点问题。函数概念的学习对于初中学生是一个新的挑战,函数概念也是解决一些实际生活问题时所必须运用的数学模型。初中阶
家庭是个人生活的中心,是实施早期教育的“苗圃”,家庭奠定了初步训练的基础。在家庭中,父母对子女最了解,容易因材施教。自上个世纪六十年代,“科尔曼报告”发表以来,国内外研究者
在一定意义上说,当下中国政治体制的形态是由其设计的基本原则即民主集中制所塑造的。而民主集中制存在的主要缺陷就是其"集中"倾向强而民主性不足。民主集中制"集中"倾向的
改革开放以来,特别是近十年来,严重暴力犯罪越来越向多元化、武装化、智能化演变,犯罪行为越来越凶残。公安部2007年4月公布,2001年至2006年全国公安机关共有2718名民警牺牲。仅2
在这个审美的世纪,设计艺术审美是值得我们深入研究的课题。本文以中国传统艺术审美准则“六法”为切入点,研究中国传统艺术的文化精神及审美形式规律等方面的内容,从而以“六法