您好,欢迎来到二三娱乐。
搜索
您的当前位置:首页腾讯大佬三年大制作,大数据Hadoop和Spark的大集合

腾讯大佬三年大制作,大数据Hadoop和Spark的大集合

来源:二三娱乐

大数据

目录

本书特色

1.满足企业对人才的技能需求是本丛书的核心设计原则,为此课工场大数据开发教研团队,通过对数百位BAT一线技术专家进行访谈、对上千家企业人力资源情况进行调研、对上万个企业招聘岗位进行需求分析,从而实现技术的准确定位,达到课程与企业需求的高契合度。

2.以任务驱动为讲解方式丛书中的技能点和知识点都由任务驱动,读者在学习知识时不仅可以知其然,而且可以知其所以然,帮助读者融会贯通、举一反三。

3.以实战项目来提升技术本丛书均设置项目实战环节,该环节综合运用书中的知识点,帮助读者提升项目开发能力。每个实战项目都设有相应的项目思路指导、重难点讲解、实现步骤总结和知识点梳理。

本书全面分析图

第一章,本章重点:Hadoop环境部署。本章目标:了解大数据和Hadoop是什么,掌握Hadoop的核心构成,了解Hadoop生态系统,掌握虚拟机、CentOS 和Hadoop的安装。

第二章,本章重点:使用HDFS存储大数据文件,HDFS基本概念及体系结构,HDFS shell操作HDFS文件,Java API操作HDFS文件。本章目标:掌握HDFS文件系统的访问方式,掌握HDFS的体系结构,掌握HDFS数据的读写流程,了解HDFS的序列化使用。

第三章,本章重点:MapReduce编程模型,使用MapReduce开发常用的功能。本章目标:了解MapReduce是什么,掌握MapReduce编程模型,掌握MapReduce中常见核心API的编程,掌握使用MapReduce开发常用的功能。

第四章,本章重点:HDFS NN HA的原理及搭建,YARN RM HA的原理及搭建。本章目标:了解YARN的架构,掌握HDFS NN HA的原理及搭建,了解HDFS Federation机制,掌握YARN RM HA的原理及搭建,了解HDFS和YARN的其他新特性。

第五章,本章重点:Hive中DDL和DML的使用,Hive中UDF函数的定义和使用,Hive常见调优。本章目标:了解Hive的产生背景及环境部署,掌握Hive中DDL和DML的使用,掌握Hive中函数(内置函数+UDF函数)的使用,认知Hive中常见的优化策略。

第六章,本章重点:数据迁移框架Sqoop在大数据中的使用,工作流调度框架Azkaban在大数据中的使用。本章目标:使用Sqoop导入MySQL到HDFS和Hive,使用Sqoop导出HDFS数据到MySQL,使用Azkaban调度MR/Hive作业。

第七章,本章重点:Scala的基本使用,Spark及生态栈核心组件,Spark源码及环境部署,使用Spark完成词频统计。本章目标:掌握Scala的基本使用,获取Spark源码并根据指定Hadoop版本编译,使用Spark完成词频统计。

第八章,本章重点:RDD是什么、如何创建,RDD的常用操作:转换、动作、缓存,Spark应用程序的开发。本章目标:掌握Spark应用程序的开发,掌握Spark的运行架构。

第九章,本章重点:使用DataFrame进行编程,Spark SQL操作外部数据源,Spark自定义UDF函数,Spark SQL常见调优策略。本章目标:掌握使用Spark SQL完成各种数据源的操作,掌握Spark UDF函数的开发。

第十章,本章重点:使用SparkStreaming处理Socket数据,使用SparkStreaming处理HDFS数据,使用SparkStreaming整合Flume使用,使用SparkStreaming整合Kafka使用。本章目标:掌握Spark Streaming核心概念,掌握Spark Streaming进行流处理应用的开发。

Copyright © 2019- yule263.com 版权所有 湘ICP备2023023988号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务