腾讯大佬三年大制作，大数据Hadoop和Spark的大集合

大数据

本书特色

1.满足企业对人才的技能需求是本丛书的核心设计原则，为此课工场大数据开发教研团队，通过对数百位BAT一线技术专家进行访谈、对上千家企业人力资源情况进行调研、对上万个企业招聘岗位进行需求分析，从而实现技术的准确定位，达到课程与企业需求的高契合度。

2.以任务驱动为讲解方式丛书中的技能点和知识点都由任务驱动，读者在学习知识时不仅可以知其然，而且可以知其所以然，帮助读者融会贯通、举一反三。

3.以实战项目来提升技术本丛书均设置项目实战环节，该环节综合运用书中的知识点，帮助读者提升项目开发能力。每个实战项目都设有相应的项目思路指导、重难点讲解、实现步骤总结和知识点梳理。

本书全面分析图

第一章，本章重点：Hadoop环境部署。本章目标：了解大数据和Hadoop是什么，掌握Hadoop的核心构成，了解Hadoop生态系统，掌握虚拟机、CentOS 和Hadoop的安装。

第二章，本章重点：使用HDFS存储大数据文件，HDFS基本概念及体系结构，HDFS shell操作HDFS文件，Java API操作HDFS文件。本章目标：掌握HDFS文件系统的访问方式，掌握HDFS的体系结构，掌握HDFS数据的读写流程，了解HDFS的序列化使用。

第三章，本章重点：MapReduce编程模型，使用MapReduce开发常用的功能。本章目标：了解MapReduce是什么，掌握MapReduce编程模型，掌握MapReduce中常见核心API的编程，掌握使用MapReduce开发常用的功能。

第四章，本章重点：HDFS NN HA的原理及搭建，YARN RM HA的原理及搭建。本章目标：了解YARN的架构，掌握HDFS NN HA的原理及搭建，了解HDFS Federation机制，掌握YARN RM HA的原理及搭建，了解HDFS和YARN的其他新特性。

第五章，本章重点：Hive中DDL和DML的使用，Hive中UDF函数的定义和使用，Hive常见调优。本章目标：了解Hive的产生背景及环境部署，掌握Hive中DDL和DML的使用，掌握Hive中函数(内置函数+UDF函数)的使用，认知Hive中常见的优化策略。

第六章，本章重点：数据迁移框架Sqoop在大数据中的使用，工作流调度框架Azkaban在大数据中的使用。本章目标：使用Sqoop导入MySQL到HDFS和Hive，使用Sqoop导出HDFS数据到MySQL，使用Azkaban调度MR/Hive作业。

第七章，本章重点：Scala的基本使用，Spark及生态栈核心组件，Spark源码及环境部署，使用Spark完成词频统计。本章目标：掌握Scala的基本使用，获取Spark源码并根据指定Hadoop版本编译，使用Spark完成词频统计。

第八章，本章重点：RDD是什么、如何创建，RDD的常用操作:转换、动作、缓存，Spark应用程序的开发。本章目标：掌握Spark应用程序的开发，掌握Spark的运行架构。

第九章，本章重点：使用DataFrame进行编程，Spark SQL操作外部数据源，Spark自定义UDF函数，Spark SQL常见调优策略。本章目标：掌握使用Spark SQL完成各种数据源的操作，掌握Spark UDF函数的开发。

第十章，本章重点：使用SparkStreaming处理Socket数据，使用SparkStreaming处理HDFS数据，使用SparkStreaming整合Flume使用，使用SparkStreaming整合Kafka使用。本章目标：掌握Spark Streaming核心概念，掌握Spark Streaming进行流处理应用的开发。