论文部分内容阅读
随着美国twitter的火热,国内各大微博网站兴起,微博在网民中日益火热。在微博中诞生的各种网络热词也迅速走红网络,微博效应正在逐渐形成,微博成为中国网民上网的主要活动之一。正是由于微博效应的形成,微博话题在网民之间迅速传递。对于微博信息的获取以及分析,成为重要的研究对象。为方便微博数据的获取,各大网站微博也相继提供了抓取微博的API,但这些API都有访问次数的限制,无法满足获取大量微博数据的要求,同时抓取的数据往往很杂乱。针对上述问题,本文引入网页页面分析技术和主题相关性分析技术,展开基于主题的微博网页爬虫的研究与设计。本文的主要工作有研究分析网页页面分析技术,根据微博页面特点选择微博页面信息获取方法;重点描述基于“剪枝”的广度优先搜索策略的思考以及设计的详细过程,着重解决URL的去重、URL地址集合动态变化等问题;研究分析短文本主题抽取技术以及多关键匹配技术,确定微博主题相关性分析的设计方案;最后设计实现基于主题的微博网页爬虫的原型系统,实时抓取和存储微博数据。本文研究的核心问题是,根据微博数据的特点设计一种基于“剪枝”的广度优先搜索策略,并将其应用到微博爬虫中;同时使用微博页面分析技术使得爬虫不受微博平台API限制,从而让用户尽可能准确地抓取主题相关的微博数据。通过多次反复实验获取原型系统实验结果,将实验结果同基于API微博爬虫和基于网页微博爬虫的抓取效果进行对比分析得出结论:本文提出的爬行策略能够抓取主题相关的微博数据,虽然在效率上有所降低,但在抓取的微博数据具有较好的主题相关性。这实验结果证明本论文研究的实现方案是可行的。