第一阶段 Spark基础入门
第1课 Spark系统概述与编程接口
知识点1:Spark系统概述
知识点2:Spark RDD分区及依赖关系
知识点3:RDD API-transformation、action
实战项目:PageRank中的依赖关系
第2课 Spark运行模式及原理
知识点1:Spark运行模式
知识点2:Spark基本工作流程
知识点3:Spark Shuffle讲解
实战项目:YARN cluster模式--部署、运行、内部实现及其原理
第二阶段 Spark进阶:存储、调度、性能调优
第3课 Spark存储、调度、与监控分析
知识点1:存储管理模块整体架构
知识点2:RDD持久化
知识点3:Shuffle数据持久化
知识点4:广播(Broadcast)变量持久化
知识点5:Spark调度相关流程
实战项目:Spark监控管理
第4课 Spark性能调优
知识点1:开发调优
知识点2:资源调优
知识点3:数据倾斜调优
实战项目:shuffle调优
第三阶段 Spark深入:即时查询、流计算与图计算
第5课 Spark即时查询讲解
知识点1:SQLContext 及DataFrame的介绍
知识点2:常用的查询操作
知识点3:流计算系统的对比
知识点4:Spark streaming的介绍与数据处理流程
知识点5:流数据源的接入
知识点6:transformation与window操作
实战项目:SQL优化配置、及流计算项目的部署与调优
第6课 Spark图计算讲解
知识点1:属性图的介绍
知识点2:edge、vertex、triplet介绍与创建
知识点3:属性图的操作
知识点4:图算法介绍
实战项目:图的调优
第四阶段 Spark机器学习实战
第7课 Spark机器学习讲解
知识点1:Mllib 机器学习库介绍
知识点2:基本的统计分析功能
知识点3:基本的机器学习库使用介绍
知识点4:模型的评价标准库使用介绍
实战项目:使用逻辑回归完成KDD99的分类问题
第8课 Spark机器学习应用
实战项目:使用Mllib的树模型完成分类问题
实战项目:使用Mllib搭建推荐系统
相关资源