基于大数据的“百度闪投实时视图”系统的设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:silawangyue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据是企业抑或团队设计产品、制定和调整战略以及反思的基石。随着大数据时代的来临,异构而庞杂的海量信息给数据分析带来了严峻的挑战。百度“闪投”(Product Ads)作为“凤巢”下研究客户广告快速批量高质投放解决方案的团队,其重要依据为用户对广告的行为日志。对这些日志高效而全面的分析好比在团队与数据之间创建一道视图,让数据“发声”,并对其进行及时的监控,进而创造出更优秀的解决方案。用户行为日志作为异步产出的异构大数据,通常很难用流式顺序的文件传统处理方法,即使是并发的读文件片段的方式,也过多的依赖程序内外的状态,造成很多代码副作用。采用MapReduce这样一种吸收函数式编程思想的编程框架,分析“天”粒度的数据,研究昨日值是通常的做法。然而,非实时的大数据分析带来的延迟,导致线上问题反馈缓慢,产品试验跟进不及时等一系列问题,从而造成巨大损失。一般来说,日志的分析结果后续会成为结构化数据存入关系型数据库。好的数据服务如百度ReportEngine系统利用多级缓存,分布式并发事务,提供多种主题的快速数据查询。但是,这样意味着主题的增加和删减都会带来非常昂贵的成本,系统越复杂,主题升级越困难。为了解决上述困难,作者设计并开发了“闪投实时视图”系统(Product Ads Realtime View Analyst,下简称PARVA)。PARVA系统采取更细粒度的数据检查、数据分析、数据入库的近实时调度,将“天”的粒度细化到同业务上游日志产出的粒度一致;采取配置式编程,利用Hadoop对完备的数据源进行粗层次的分析,生成非结构化的主题数据;从非结构化数据中提取常维度,生成结构化数据存入关系型数据库MySQL中,提供“分钟”粒度到“天”粒度的常维度数据服务。最后,PARVA系统综合利用非结构化与结构化数据、“分钟”粒度与“天”粒度数据,对数据进行监控和更高层次的分析,组织成数据报表邮件、PHP网页以及Chrome插件等丰富形式全方位向用户展示数据。本文将对PARVA系统的诞生追根溯源,给出PARVA系统详尽的设计与重要模块的具体实现。
其他文献
以硫代乙酰胺为硫源,采用传统的水热法和改进的均匀沉淀–水热法制备了Zn S微米球。对制备的样品进行了表征;以紫外灯为光源,染料罗丹明B、甲基橙、亚甲基蓝为目标降解物,考
网上拍卖作为一种新的交易机制,在商业交易中占的比重越来越大。缺乏相应的认证和鉴定规范使得“托”投标很难被发现和界定,同时由于网上拍卖的广泛应用,因此对“托”投标进
通过室内土柱淋溶实验,研究了六价铬在砖红壤中淋溶特征以及有机肥和陪伴离子[Cu(Ⅱ)、磷酸根]对该过程的影响,并探讨了模拟酸雨条件下,土壤中六价铬溶出特征。结果表明:高氧化
为了研究构造煤原煤样的渗透率变化规律及其与型煤煤样的异同,通过改进煤样制作方法,采用在井下取大煤块、实验室加工成型的方法,制取了普氏系数为0.4的构造煤原煤样,并进行
以谷胱甘肽(GSH)为硫源,氯化锌(ZnCl2)为锌源,溴化十六烷基三甲铵(CTAB)为表面活性剂,乙二胺为反应媒介,采用水热法在较低温度(160℃)下成功地合成六方相纤锌矿硫化锌(ZnS)纳
采用TaqMan方法,根据古典狂犬病病毒非编码区及N基因编码区序列,设计合成多对引物和多条探针,通过对引物、探针的筛选,反应条件的选择和优化,建立了古典狂犬病病毒荧光RT-PCR
本文旨在用博弈论的方法分析广东河源市房地产行业,通过房地产商和购房者之间的博弈分析,为河源市房地产行业的稳定健康发展提供理论支持,并为房地产企业提供决策依据。本文
地震勘探的数据十分宝贵且十分稀少,但是中国越来越向好的经济却对石油和天然气的产量提出了更高的要求。目前国内的油田大多数的储量是低渗透的油气,所以开采起来难度非常大
编制管理是机构编制部门的一项基本职能。但是对于编制管理重要性的认识,看法并不一致,甚至出现了“编制根本没用,纳入预算管理才是根本出路”、“都实行聘用制了,编制可以取消了
目的:观察清燥布津合剂对干燥综合征(Sj?gren’s syndrome,SS)BALB/c小鼠外周血及颌下腺IL-6、IL-17、IL-21的表达影响,探讨其作用机制。方法:120只BALB/c小鼠随机分为空白组