课程介绍《Spark 大数据平台》 本课程内容全面涵盖了Spark生态系统的概述及其编程模型,深入内核的研究,Spark on Yarn,Spark Streaming流式计算原理与实践
Spark SQL,基于Spark的机器学习,图计算,Techyon,Spark的多语言编程以及SparkR的原理和运行。面向研究Spark的学员,它是一门非常有学习指引意义的课程。
时间:共10周
-------------------课程目录-------------------
第一周 Spark生态系统概述与编程模型 Spark生态系统概述
回顾Hadoop MapReduce
Spark运行模式
RDD
Spark运行时模型简介
缓存策略介绍
transformation
action
lineage
容错处理
宽依赖与窄依赖
集群配置
第二周 深入Spark内核
Spark术语解释
集群概览
核心组件
数据本地性
常用RDD
任务调度
DAGScheduler
TaskScheduler
Task细节
广播变量
累加器
性能调优
第三周 Spark on Yarn & Spark as a service
Spark on Yarn原理
Spark on Yarn实践
JobServer架构
JobServer API介绍
JobServer配置与部署
第四周 Spark Streaming原理与实践
DStream
数据源
无状态transformation与有状态transformation
checkpoint
容错
性能优化
第五周 Shark与Spark SQL
Shark数据模型
Shark数据类型
Shark架构
Shark部署
缓存(分区)表
SharkServer
Shark与Spark结合
Spark SQL架构
Parquet支持
DSL
SQL on RDD
Hive支持
UDF
JDBC Server
第六周 Machine Learning on Spark
LinearRegression
K-Means
Collaborative Filtering
第七周 Spark多语言编程
Python简介
PySpark API
使用Python编写Spark程序
Spark with Java
第八周 图计算GraphX
现存的图计算框架
Table Operators
Graph Operators
GraphX设计
第九周 Tachyon原理与实践
Tachyon原理与架构
Tachyon实践
第十周 SparkR
SparkR原理介绍
安装配置与运行
相关资源