微博用户属性信息挖掘平台核心功能设计与实现

被引量 : 2次 | 上传用户:bostangul
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一个基于社会关系网络的信息分享、传播和信息获取平台,微博网络日益成为人们获取信息、传播信息、感知社会的重要渠道。同时,微博数据具有大数据的基本特性:数据处理速度快、低价值密度、多数据类型、数据体量大,所以本课题将以新浪微博数据为基础,完成微博数据的获取、处理以及微博用户属性信息挖掘平台的搭建,最终形成微博大数据研究的综合性基础平台。本文的主要研究包括以下三方面:首先本课题将针对新浪微博设计一种特殊的网络爬虫系统,其将解决目前微博爬虫普遍存在的碎片化问题,是一种可维护性好、健壮性强、智能性高的爬虫,可以提供简洁高效的数据获取接口。其次在数据处理方面,充分考虑到大数据和后期的扩展性,将结合现有数据存储中关系数据库和Hadoop分布式存储两类,构建基于Hadoop的分布式文件系统,开发和预留统一而完备的数据接口,提供基本的组合的数据处理、分析服务。最后在微博用户属性信息挖掘平台方面,设计可视化微博平台系统。系统为B/S结构,前端采用浏览器呈现数据,后台由微博爬虫、关系数据库、Map/Reduce框架组合来完成数据的获取、处理、分析的功能。由代理接口实现Web服务器和后台数据的透明交互,同时完成前端和后台的交互。将针对微博用户属性信息进行数据分析和可视化展现。本微博平台以数据为驱动,实现微博数据的获取、分析和可视化三个依次层进和依赖的功能。在系统设计时,依据数据来源和处理方式的不同进行模块化,构建整个系统的框架。课题提出的需求不针对特定的应用,不针对特定用户的需求,而是针对普遍的微博数据获取、分析和展示任务来提出,旨在为开发统一、系统化的接口和服务提供保障。最终,本课题搭建的微博平台将成为微博大数据研究的一个基础平台,对于新的功能需求,完全可以通过该微博基础平台的接口和服务来实现。
其他文献
核酸适配体是一段单链DNA或RNA,由于自身可折叠成一定的空间结构,能够以高亲和力和高特异性的结合靶物质。近些年来,由于其独特的性质得到广泛的关注,并展开了大量的研究,已
随着社会的快速发展和智能信息等科学技术的快速提高,对于身份的识别越来越重视。而且身份识别通常用于各行各业中,比如安防监控、个人认证、海关过境检测、国防建设等等。由
一、研究背景前列腺癌是常见的男性恶性肿瘤之一。美国2012年前列腺癌新发病例241740例,其发病率为男性癌症之首,死亡率为癌症疾病第二位。在我国,由于人口老龄化、饮食结构改变
迄今,语篇研究在对外汉语教学界已成为研究的热点之一。逻辑衔接作为语篇研究的一部分也开始受到关注,有不少学者已经对留学生汉语语篇的逻辑衔接进行研究与分析,但是针对印
氨是一种重要的化工原料,在化工生产过程中有着广泛的应用,因此各个冶炼厂内散布的大大小小的液氨储罐区作为重大危险源,其消防设计就显得尤为重要.当现行规范不能明确规定卧
民用飞机翼身整流罩在飞机雷击分区中属于扫掠冲击区域。现代民用飞机翼身整流罩面板大多使用复合材料层合板,如果在雷击过程中遭遇扫掠电流,面板会产生大量热量并最终导致损
为保证大跨度高架桥梁的施工安全,对其进行的安全评估不可或缺。蚁群算法、神经网络法在桥梁施工风险评估中已有应用,但缺少将两者结合使用方面的研究。把用蚁群算法改进的BP
水泥基注浆材料是注浆工程中使用最广泛的无机注浆材料,具有结石体强度高、来源广泛等特点,但水泥浆液易离析、稳定性较差。在实际工程施工中水泥浆液易出现回浆返浓,表现为
政府审计的发展是与受托经济责任理论的发展以及其内涵和外延的扩大相适应的。政府审计就是对整个政府财政收支、财务收支活动进行约束,使得受公众之托的各级政府为公共财产管
本文在认真研究技术创新和产业升级的相关文献的基础上,对技术创新和产业升级的协动性进行了研究。首先,本文以美国、日本、德国技术创新驱动下的产业升级路径分析为基点,通