各个公司的大数据架构

美团

image
image

数据收集特性：

对于数据收集平台，日志数据是多接口的，可以打到文件里观察文件，也可以更新数据库表。关系型数据库是基于Binlog获取增量的，如果做数据仓库的话有大量的关系型数据库，有一些变更没法发现等情况，可以通过Binlog手段可以解决。通过一个Kafka消息队列集中化分发支持下游，目前支持了850以上的日志类型，峰值每秒有百万介入。

流式计算平台特性：

构建流式计算平台的时候充分考虑了开发的复杂度，基于Storm。有一个在线的开发平台，测试开发过程都在在线平台上做，提供一个相当于对Storm应用场景的封装，有一个拓扑开发框架，因为是流式计算，我们也做了延迟统计和报警，现在支持1100以上的实时拓扑，秒级实时数据流延迟。这上面可以配置公司内部定的某个参数，某个代码，可以在平台上编译有调试。

离线数据平台：

最下面是三个基础服务，包括Yarn、HDFS、HiveMeta。不同的计算场景提供不同的计算引擎支持。如果是新建的公司，其实这里是有一些架构选型的。Cloud Table是自己做的HBase分装封口。我们使用Hive构建数据仓库，用Spark在数据挖掘和机器学习，Presto支持Adhoc上查询，也可能写一些复杂的SQL。对应关系这里Presto没有部署到Yarn，跟Yarn是同步的，Spark是on Yarn跑。

微软

lambda 架构 -> Kappa 架构

lambda 架构首先由 Nathan Marz 提出，通过创建两个数据流路径来解决此问题。所有进入系统的数据都经过这两个路径：
批处理层（冷路径）以原始形式存储所有传入数据，对数据进行批处理。该处理的结果作为批处理视图存储。
速度层（热路径）可实时分析数据。设计此层是为了降低延迟，但代价是准确性也会降低。

image

Kappa 架构由 Jay Kreps 提出，用于替代 Lambda 架构。它具有与 lambda 体系结构相同的基本目标，但有一个重要区别：所有数据流经一个路径，使用一个流处理系统。

image

Airbnb

image

Airbnb 数据源主要来自两方面：数据埋点发送事件日志到 Kafka；MySQL 数据库 dumps 存储在 AWS 的 RDS，通过数据传输组件 Sqoop 传输到 Hive集群。

包含用户行为以及纬度快照的数据发送到 Hive“金”集群存储，并进行数据清洗。这步会做些业务逻辑计算，聚合数据表，并进行数据校验。

Airbnb 采用 Presto 来查询 Hive 表，代替 Oracle、 Teradata、 Vertica、 Redshift 等。在未来，希望可以直接用 Presto 连接 Tableau。

迁移到 Mesos 计算框架后，可以选择不同类型的机器运行不同的集群。比如，选择 AWS c3.8xlarge 实例运行 Spark。AWS 后来发布了“D 系列”实例。从 AWS c3.8xlarge 实例每节点远程的 3 TB 存储迁移数据到 AWS d2.8xlarge 4 TB 本地存储，这给 Airbnb 公司未来三年节约了上亿美元。

各个公司的大数据架构

美团

微软

Airbnb

有赞

Reference：