spark系列(三)Spark编程模型 有更新!
(一)模型简介
1. 术语定义
2. 模型组成
1) Driver部分
2) Executor-原生数据
3) Executor-RDD
4) Executor-共享变量
(二)RDD理论
1. 术语定义
2. RDD概念
1) RDD的特点
2) RDD基础数据类型
3) 例子:控制台日志挖掘
3. 转换与操作
1) 操作函数
2) 转换函数
4. 依赖类型
5. RDD缓存
(三)RDD实践
1. 启动Spark Shell
2. 转换与操作
1) 并行化集合例子演示
2) Shuffle操作例子演示
3) 文件例子读取
4) 搜狗日志查询例子演示
(四)eclipse-scala-maven-spark搭建
1. 搭建eclipse+scala
2. 搭建maven-scala
3. spark开发环境
4. 任务编写打包
5. 上传并执行任务