基于Hadoop的新浪微博营销数据分析系统设计与实现

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:yanfengim
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种社交媒体,微博越来越成为用户分享、传播和获取信息的平台,微博包含了大量有价值的信息,已经成为一个典型的大数据资源,对微博数据的分析和挖掘成为当前的热点。在商业上,通过微博进行及时高效的营销亦成为一种新的商业模式。然而,由于微博信息量大、时效性强、信息碎片化,传统的分析技术和方法难以高效准确的完成数据处理。而Hadoop生态系统的兴起与发展为大规模数据的存储与分析提供了有效的技术手段。本文就是在此基础上,设计并实现了基于Hadoop的微博数据采集、分析系统,并为商业营销和决策提供数据支持。具体而言,本文主要完成了以下工作:(1)微博数据采集与存储:研究了基于Python语言的Scrapy数据爬取框架和爬取机制,并在此基础上实现了新浪微博的数据采集;设计并实现数据库存储结构,实现微博文本数据的持久化存储。(2)微博文本预处理及文本向量化建模:对微博文本进行抽象化和数学意义上的表征是进行后续数据挖掘的重要基础。本文基于Hadoop分布式处理平台,使用中文分词处理技术对收集到的微博文本进行分词处理和词性标注,并使用了改进的基于MapReduce并行计算框架的TF-IDF对微博文本的关键词进行提取,并依据其权重对微博文本建立了向量化模型表征。(3)营销业务分析:微博热点话题发现和用户情感分析是进行营销业务的核心基础,微博数据量较大,本系统使用了分布式平台和并行计算框架,使用聚类算法对微博热点话题进行统计和发掘,并使用了情感词典和机器学习的分类方法对用户评价信息给予情感偏好分析,为营销业务给予反馈和改进建议。综上,本系统是一个集微博数据采集,当前实时热点获取和用户情感倾向分析挖掘于一体的综合性系统。通过该系统,为商业产品的营销及反馈提供了可信的数据支持。
其他文献
通过对链格孢属(Alternaria Nees)12个种在自然奇主、PDA培养基、1/4PDA培养基、水洋菜麦秆培养基和滤纸培养基上的测定表明:生长在自然寄主上的本属真菌形态特征典型,滤纸培
目的:通过理论研究,结合文献探讨中医学对亚急性甲状腺炎的认识;通过临床研究,观察泻火解毒消瘿方治疗亚急性甲状腺炎热毒壅盛证的临床疗效及安全性,为临床治疗亚急性甲状腺炎属热毒壅盛证提供理论依据及有效的治疗用药。方法:选取符合亚急性甲状腺炎的西医诊断标准、中医辨证属热毒壅盛证的60例患者,采用随机对照法,等比例分为治疗组与对照组,每组各30例。治疗组采用泻火解毒消瘿方,每日1剂,早晚分服;对照组采用醋
在信息化时代,对视频测控仪器的应用进行监视、控制管理数据库和搜集整理信息是其显著的特点,在测控领域逐渐引入和应用智能技术的影响作用下,测控技术和仪器获得了很大的突
本文介绍了冲压铆接连接技术的起源、技术原理及其主要应用。并基于专利梳理了冲压铆接连接专利技术发展趋势,并对该技术领域的国内外的专利申请趋势进行了简要的统计和分析
通过求解Milburn方程,研究了内禀消相干条件下包含Dzyaloshinskii-Moriya(DM)相互作用的两量子比特Heisenberg自旋系统实现的量子密集编码最佳传输容量的演化特性,分析了不同
问责制度可以借由新旧两种理论范式创建。旧范式"问责行为法治化"理论上有缺陷,实践中有危害,应当被淘汰。新范式"问责权法治化"是对旧范式的超越。其核心逻辑在于:任何权力
针对高职高专电子信息类专业人才培养的要求以及实习实训基地的实际,探讨研究了本校电子信息类专业实习实训基地建设的基本思路和途径。
潮汐现象来源于万有引力,是万有引力的高阶效应。地球上的海水潮对地球上生命活动的深刻影响是毋庸置疑的;液体潮和固体潮对天体的形状和自转以及天体间的依存关系也有着潜移
财务报表是企业有关重要经济活动的综合反映,为企业经营者,投资人,债券人等提供了所需要的信息。本文对就有关财务报表常见的分析方法及局限性进行了简要的探讨,以有利于有关
Black-scholes期权定价公式的推导过程相当复杂,需要用到随机过程和求解随机微分方程等较高深的数学工具,本文将在风险中性的假设下给出两种Black-scholes期权定价公式的简洁