从零起步大数据Spark实战高手之路
内容介绍
从零起步,分阶段无任何障碍逐步掌握大数据统一计算平台Spark,从Spark框架编写和开发语言Scala开始,到Spark企业级开发,再到Spark框架源码解析、Spark与Hadoop的融合、商业案例和企业面试,一次性彻底掌握Spark,成为云计算大数据时代的幸运儿和弄潮儿,笑傲大数据职场和人生!
学习目标
1,掌握Scala;
2,精通Spark企业及开发;
3,精通Spark框架源码实现;
4,掌握Spark与Hadoop融合和商业案例;
5,轻松加入任何类型和难度的Spark面试;
学习建议
1,从第一阶段掌握Scala开始,逐步深入;
2,跟着视频一步步动手实践
【课程目录】
1.熟练的掌握Scala语言系列课
安装Scala开发环境
Scala常用类型介绍
动手体验值与变量的声明
动手体验Scala函数与方法的定义和使用
动手编写条件表达式
循环表达式与For循环的使用
默认参数、带名参数及变长参数
lazy值
异常处理
数组
Map操作
类的定义:属性与方法
不同的构造器
object对象
apply方法
方法重写与字段重写
抽象类
trait
包的定义与使用
包对象定义与使用
文件访问
函数的定义
值函数
匿名函数
闭包
SAM与Curry
高阶函数示例
集合
序列
可变列表与不可变列表
集合操作
case class
泛型类
泛型函数
Lower bounds 与 Upper bounds
View bounds
Context bounds
协变与逆变
隐式转换
隐式参数
隐式类
创建actor
actor的消息机制
共享线程
多个actor协同工作
actor使用最佳实践
隐式转换规则
隐式参数
上下文界定
隐式参数下的隐式转换
Scala隐式转发最佳实践
Akka在分布式系统中的巨大价值
Akka架构
Akka内核剖析
Akka案例实战
2.精通Spark提供给开发者API系列课程
动手构建Spark集群
测试Spark集群
程序数据的来源:File、HDFS、HBase、S3等
IDE环境构建
Maven
sbt
编写并部署Spark程序的实例
源码剖析SparkContext
加载数据成为RDD
DAG
深入实战各种Scala RDD Function
RDD的优化问题
编写可测试的Spark程序
Spark测试框架解析
Spark测试代码实战
Logs
内存
序列化
安全
3.精通Spark内核系列课程
Spark生态系统剖析
Spark的架构设计剖析
RDD计算流程解析
Spark的出色容错机制
Cache的内部实现揭秘
CheckPoint内部实现揭秘
Broadcast的实现揭秘
生产环境下的Broadcast
transformation
action
lineage
宽依赖与窄依赖
任务调度流程分析
DAGScheduler
TaskScheduler
Task内部揭秘
累加器的机制和使用的最佳实践
RDD的设计和源码实现
Spark作业提交过程源码剖析
Task执行过程源码剖析
Scheduler模块源码剖析
如何建立RDD之间的关系
细说RDD的transformation
揭秘combineByKey
从部署层次细说Job的部署和执行细节
Job的逻辑执行和物理执行
复杂的Job的实现
Job的物理执行内幕
生产和提交Job的内幕
Shuffle的工作机制
细说Shuffle操作
深入解析Shuffle
Shuffle的性能优化
Job的提交和接收内幕揭秘
Task内幕揭秘
从集群工作的角度看Shuffle
4.掌握基于Spark上的核心框架的使用系列课程(spark sql、GraphX)
Spark SQL原理和实现
使用Spark SQL操作文本文件和DSL
Spark SQL操作JSON和Hive
Spark GraphX原理和实现
PageRank
TriangleCount
Table operator和Graph Operator
Verticies、Edges、Triplets
动手编写GraphX实例
图操作之Property Operator、Structural Operator
图操作之Computing Degree、Computing Neighbors
图操作之Join Operators、Map Reduce Triplets
Pregel API
ShortestPaths
DStream
transformation
checkpoint
案例实战
K-Means
Collaborative Filtering
JobServer的架构设计
JobServer提供的接口
JobServer最佳实践
Spark on Yarn的架构原理
Spark on Yarn的最佳实践
Tachyon架构剖析
Tachyon操作详解
Spark下的Tachyon使用解析
5.商业级别大数据中心系列课程
淘宝的Hadoo+Spark大数据鉴赏
Yahoo的Hadoop+Spark大数据鉴赏
Conviva的Spark大数据鉴赏
优酷土豆使用Spark大数据鉴赏
网易使用Spark大数据鉴赏
腾讯使用Spark大数据鉴赏
京东使用大数据Spark鉴赏
华为使用Spark大数据鉴赏
Yahoo的Hadoop+Spark大数据鉴赏
Conviva的Spark大数据鉴赏
大数据处理中心的黄金架构
大数据处理中心的最佳技术堆栈
大数据处理中心的速度为王
互联网企业构建大数据中心最佳实践
金融机构构建大数据中心最佳实践
传统企业构建大数据中心最佳实践
6.spark书籍
搭建hadoop单机和伪分布式的环境
如何构建真正的Hadoop分布式集群环境
构造分布式Spark集群
构建Spark集群
动手实战Scala
Spark实战高手之从零开始
Spark最佳学习路径
Spark运行原理解析
Spark 编程指南
【Spark专刊】Scala入门
Spark架构设计与编程模型
Spark内核揭秘
Spark性能优化
Spark API编程动手实战
Spark SQL编程动手实战
相关资源