360云盘底层Cassandra+Storm介绍

来源 :2016第七届中国数据库技术大会 | 被引量 : 0次 | 上传用户:nathan_zk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文阐述Cassandra系统改进,包括数据可靠性、数据分配策略、EraserCode。Storm系统改进,包括大文件缓存、应用Jar包P2P分发。
其他文献
大数据分析三个指标:易理解、分析能力、扩展性,数据分析常用方案:第三方统计服务、业务数据库写SQL、基于日志写统计脚本。
MHA集中管理mysql集群,负责mysql切换,向name service注册mysql服务信息,切换时发布mysql服务信息变更。MZAgent部署在app server,订阅在name service注册的mysql服务信息,并持久化到本地/etc/hosts,订阅变更,实时修改本地/etc/hosts,基于zkclient实现。
重点介绍:数据-基础数据体系构建;接口-统一查询服务;服务-DMP。建立数据流转通路,统一研发标准与命名规则,确立标准,消除二义性,随时了解数据状况。
VITESSEDATA利用Protocol扩展数据源,独立可扩展的构架,包括HDFS/Ceph/NFS容量的扩展、LOFTD带宽的扩展、DeepGreen查询的扩展,性能优于原生Heap,ColumnStore。
时间序列数据库主要用于指处理带时间标签(按照时间的顺序变化,即时间序列化)的数据。应用各类型实时监测,如服务器状态信息。依托mysql框架,开发mysql存储引擎,以表的方式组织数据,使用已有概念,通过SQL标准接口进行数据操作,降低开发门槛利用己有mysql框架,如复制框架/HA框架。
推荐系统架构是水到渠成,不是祀人忧天,避免拿来主义,探索自身特点,不要怕混乱,混乱代表空间,快速生长,逐步重构。
本文介绍了京东广告和推荐的机器学习系统,主要解决机器学习在排序算法中的应用,特点是实时、在线、广告和推荐的混合系统。
SQL(Structured Query Language),是用于DBMS中的标准数据查询语言。传统来讲,SQL语言分为三个部分:DDL:Data Definition Language,用于定义SQL模式、基本表、视图和索引的创建和撤消操作。DML:Data Manipulation Language,数据操纵分成数据查询和数据更新两类。数据更新又分成插入、删除和修改三种操作。DCL:Data
本文主要阐述DBA快速提升自己,提升能力无捷径,勤奋是必要条件,多参与项目,敢于挑战自己能力之外的项目,参与各种论坛和线上线下讨论组的活动,用好MOS网站和官方文档。
SAP HANA Vora内置于Apache Spark执行架构之中,是一款内存计算查询引擎,能够基于Hadoop提供丰富的交互式分析体验。SAP HANA-Apache Spark Adapter可用于提高分布式系统连接的性能,编译查询可以提高应用和数据分析在各节点的运行效率,基于Hadoop的OLAP体验非常常见,可用于从大数据中挖掘业务洞察,比如向下钻取日DFS数据。