| Spark系統(tǒng)概述 |
為什么需要
和Hadoop有什么不同
Spark大數(shù)據(jù)處理框架
Spark基本功能
Spark基本組件
Spark計(jì)算模型
Spark 和Hadoop比較的差異和優(yōu)點(diǎn) |
| Spark RDD及編程接口 |
Spark程序基本構(gòu)成
Spark RDD
集合創(chuàng)建操作和存儲(chǔ)創(chuàng)建操作
轉(zhuǎn)換操作
控制操作(control operation)
行動(dòng)操作(action operation) |
| Spark運(yùn)行模式及原理 |
Spark運(yùn)行模式列表
Spark基本工作流程
各種工作模式安裝、部署、運(yùn)行原理
- Local運(yùn)行模式
- Standalone運(yùn)行模式
- Local cluster模式
- Mesos模式
- YARN standalone / YARN cluster模式
- YARN client模式
- 各種模式的實(shí)現(xiàn)細(xì)節(jié)比較
|
Spark調(diào)度管理原理
|
Spark作業(yè)調(diào)度管理概述
Spark調(diào)度相關(guān)基本概念?
作業(yè)調(diào)度模塊頂層邏輯概述
作業(yè)調(diào)度具體工作流程
任務(wù)集管理模塊詳解
調(diào)度池和調(diào)度模式分析
Spark應(yīng)用之間的調(diào)度關(guān)系
調(diào)度過程中的數(shù)據(jù)本地性問題 |
| Spark的存儲(chǔ)管理 |
存儲(chǔ)管理模塊整體架構(gòu)
- 通信層架構(gòu)
- 通信層消息傳遞
- 注冊(cè)存儲(chǔ)管理模塊
- 存儲(chǔ)層架構(gòu)
- 數(shù)據(jù)塊 (Block) RDD 持久化
- RDD分區(qū)和數(shù)據(jù)塊的關(guān)系
- 內(nèi)存緩存
- 磁盤緩存
- 持久化選項(xiàng)
- 如何選擇不同的持久化選項(xiàng) Shuffle數(shù)據(jù)持久化
廣播(Broadcast)變量持久化
|
| Spark監(jiān)控管理 |
UI管理
- 實(shí)時(shí)UI管理
- 歷史UI管理 Metrics管理
- Metrics系統(tǒng)架構(gòu)
- Metrics系統(tǒng)配置
- 輸入源(Metrics Source)介紹
- 輸出方式(Metrics Sink)介紹
|
| Shark架構(gòu)與安裝配置 |
Shark架構(gòu)淺析
Hive/Shark各功能組件對(duì)比
- MetaStore
- CLI/ Beeline
- JDBC/ODBC
- Hive Server/2 與 Shark Server/2
- Driver 145
- SQL Parser 146
- 查詢優(yōu)化器(Query Optimizer)
- 物理計(jì)劃與執(zhí)行 Shark安裝配置與使用
- 安裝前準(zhǔn)備工作
- 在不同運(yùn)行模式下安裝Shark Shark SQL命令行工具(CLI)
使用Shark Shell命令
啟動(dòng)Shark Server
Shark Server2配置與啟動(dòng)
緩存數(shù)據(jù)表?
|
| SQL程序擴(kuò)展 |
程序擴(kuò)展并行運(yùn)行模式
Evaluator和ObjectInspector
自定義函數(shù)擴(kuò)展
自定義數(shù)據(jù)存取格式
Spark SQL邏輯架構(gòu)
Catalyst上下文(Context)
Java API
Python API
Spark SQL CLI
Thrift服務(wù) |
| Spark Streaming流數(shù)據(jù)處理框架 |
Spark Streaming基本概念
性能調(diào)優(yōu)
- 運(yùn)行時(shí)間優(yōu)化
- 內(nèi)存使用優(yōu)化 容錯(cuò)處理
DStream作業(yè)的產(chǎn)生和調(diào)度
DStream與RDD關(guān)系
數(shù)據(jù)接收原理
自定義數(shù)據(jù)輸入源
自定義監(jiān)控接口(StreamingListener)
Spark Streaming案例分析
|
| GraphX計(jì)算框架 |
圖并行計(jì)算
- 數(shù)據(jù)并行與圖并行計(jì)算
- 圖并行計(jì)算框架簡(jiǎn)介
- GraphX簡(jiǎn)介 GraphX模型設(shè)計(jì)
- 數(shù)據(jù)模型
- 圖計(jì)算接口 GraphX模型實(shí)現(xiàn)
- 圖的分布式存儲(chǔ)
- 圖操作執(zhí)行策略
- 圖操作執(zhí)行優(yōu)化
- 序列化和反序列化
- GraphX內(nèi)置算法庫(kù) GraphX應(yīng)用
- Pregel模型
- N維鄰接關(guān)系計(jì)算
|
| Tachyon存儲(chǔ)系統(tǒng) |
設(shè)計(jì)原理
框架設(shè)計(jì)
- 主節(jié)點(diǎn)
- 工作節(jié)點(diǎn)
- 客戶端
- 讀寫工作流程 Tachyon的部署
- 單機(jī)部署
- 分布式部署
- Tachyon的配置 Tachyon應(yīng)用?
|