支持云计算的微博在线采集方法研究与应用

被引量 : 0次 | 上传用户:rui6372472
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web2.0时代的到来,不仅改变了我们对传统互联网的使用习惯,更是掀起了Web时代的新变革。作为社交网络和移动互联网的典型代表——新浪微博拥有5亿多注册用户,庞大的用户群体和每天产生的海量数据集使得一个真正的双向传播和新媒体时代初具规模。本文针对微博数据的在线采集,分析了传统网络爬虫采集的局限性及国内外现有研究及设计方案的优劣后,提出了支持云计算扩展的微博网络爬虫设计方案,研究设计基于HTTP协议通信数据包分析,分布式计算及Hadoop分布式文件系统HDFS的技术原理。具体研究的问题有以下几个方面:首先,分析了Web2.0网络应用在线数据采集的研究现状和局限性,提出以模拟浏览器方式登录微博,解决由登录问题导致信息无法采集的问题,分析现有oAuth授权调用微博API方式获取信息方案的不足,提出以模拟浏览器方式访问的网络爬虫方法进行微博数据的在线采集。然后,对于微博产生庞大的数据量,在评估了重构Nutch搜索引擎框架中传统网络爬虫采集、解析功能的风险后,依据分布式计算原理,提出了分布式微博爬虫的架构,并根据此架构详细介绍了各模块间的核心业务逻辑。再次,进一步扩展了分布式微博爬虫的功能,提出了两种工作模式:普通模式和云计算扩展模式。其中普通模式Web信息抽取工作依据正则表达式和BeautifulSoup框架提供的XML检索接口完成;云计算扩展模式则提出了支持Hadoop分布式文件系统HDFS。扩展模式产生键值对形式的采集数据,并将资源副本输出到HDFS上,实质为MapReduce计算框架提供了文件输入端。最后,实现了上述的功能模块,并进行了验证。
其他文献
对槲寄生干燥茎叶的化学成分进行研究。采用反复硅胶、Sephadex LH-20及ODS等柱色谱技术进行分离纯化,根据理化性质及波谱分析鉴定化合物的结构。槲寄生干燥茎叶用95%乙醇提
目的观察清营活血汤治疗原发性胆汁性肝硬化肝胆湿热型的疗效及对外周血Th17/Treg平衡的影响。方法将70例原发性胆汁性肝硬化肝胆湿热型患者随机分为2组,对照组35例给予熊去
随着中国改革开放的进一步扩大以及经济、文化领域对外交流的加深,越来越多的企业参与进了激烈的市场竞争。企业外宣致力于向目标读者提供有关企业产品、服务的完整信息,在开拓
健康产业在全球已经历了近六十年的发展。这六十多年的发展,使健康产业在一些发达国家形成相当的规模,现己成为美国、日本等一些发达国家的主导产业和支柱产业。2011年6月21日,
店名不仅是一个商业符号,更是一种富含文化蕴涵的语言现象。从语言角度看,店铺名称是一种社会语言,是人类语言生活的构成要素之一;从文化角度看,店铺名称是中国几千年商业文化的介
性别研究在1990年代以来的中国学界已蔚为风潮,在视角、资源和方法上为各学科确立新的学术增长点提供了必要的参照。然而中国的性别研究潜藏着巨大的隐忧,影响了其向纵深处发
微小型扑翼飞行器因机动灵活的性能和广泛的应用前景成为研究热点。自然界中的飞鸟和飞行昆虫经过长期的进化和自然选择,获得了优异的飞行技能,为微小型扑翼飞行器提供了值得借
传统酒糟发酵是我国长江中下游地区流行甚广的一种传统美味保藏法。但传统发酵法很耗时,难以实现规模化生产。本论文以鳓鱼为原料,探索了一种新的接种发酵方法,分析其不同条件发
<正>[教学设想]《流浪人,你若到斯巴……》一文,是诺贝尔文学奖获得者、德国作家海因里希·伯尔的名作。作品之所以在世界上引起巨大的反响,不唯其"反战"的思想主题在和平世