| Spark系統(tǒng)概述 |
為什么需要
和Hadoop有什么不同
Spark大數(shù)據(jù)處理框架
Spark基本功能
Spark基本組件
Spark計算模型
Spark 和Hadoop比較的差異和優(yōu)點 |
| Spark RDD及編程接口 |
Spark程序基本構(gòu)成
Spark RDD
集合創(chuàng)建操作和存儲創(chuàng)建操作
轉(zhuǎn)換操作
控制操作(control operation)
行動操作(action operation) |
| Spark運行模式及原理 |
Spark運行模式列表
Spark基本工作流程
各種工作模式安裝、部署、運行原理
- Local運行模式
- Standalone運行模式
- Local cluster模式
- Mesos模式
- YARN standalone / YARN cluster模式
- YARN client模式
- 各種模式的實現(xiàn)細節(jié)比較
|
Spark調(diào)度管理原理
|
Spark作業(yè)調(diào)度管理概述
Spark調(diào)度相關(guān)基本概念?
作業(yè)調(diào)度模塊頂層邏輯概述
作業(yè)調(diào)度具體工作流程
任務(wù)集管理模塊詳解
調(diào)度池和調(diào)度模式分析
Spark應(yīng)用之間的調(diào)度關(guān)系
調(diào)度過程中的數(shù)據(jù)本地性問題 |
| Spark的存儲管理 |
存儲管理模塊整體架構(gòu)
- 通信層架構(gòu)
- 通信層消息傳遞
- 注冊存儲管理模塊
- 存儲層架構(gòu)
- 數(shù)據(jù)塊 (Block) RDD 持久化
- RDD分區(qū)和數(shù)據(jù)塊的關(guān)系
- 內(nèi)存緩存
- 磁盤緩存
- 持久化選項
- 如何選擇不同的持久化選項 Shuffle數(shù)據(jù)持久化
廣播(Broadcast)變量持久化
|
| Spark監(jiān)控管理 |
UI管理
- 實時UI管理
- 歷史UI管理 Metrics管理
- Metrics系統(tǒng)架構(gòu)
- Metrics系統(tǒng)配置
- 輸入源(Metrics Source)介紹
- 輸出方式(Metrics Sink)介紹
|
| Shark架構(gòu)與安裝配置 |
Shark架構(gòu)淺析
Hive/Shark各功能組件對比
- MetaStore
- CLI/ Beeline
- JDBC/ODBC
- Hive Server/2 與 Shark Server/2
- Driver 145
- SQL Parser 146
- 查詢優(yōu)化器(Query Optimizer)
- 物理計劃與執(zhí)行 Shark安裝配置與使用
- 安裝前準(zhǔn)備工作
- 在不同運行模式下安裝Shark Shark SQL命令行工具(CLI)
使用Shark Shell命令
啟動Shark Server
Shark Server2配置與啟動
緩存數(shù)據(jù)表?
|
| SQL程序擴展 |
程序擴展并行運行模式
Evaluator和ObjectInspector
自定義函數(shù)擴展
自定義數(shù)據(jù)存取格式
Spark SQL邏輯架構(gòu)
Catalyst上下文(Context)
Java API
Python API
Spark SQL CLI
Thrift服務(wù) |
| Spark Streaming流數(shù)據(jù)處理框架 |
Spark Streaming基本概念
性能調(diào)優(yōu)
- 運行時間優(yōu)化
- 內(nèi)存使用優(yōu)化 容錯處理
DStream作業(yè)的產(chǎn)生和調(diào)度
DStream與RDD關(guān)系
數(shù)據(jù)接收原理
自定義數(shù)據(jù)輸入源
自定義監(jiān)控接口(StreamingListener)
Spark Streaming案例分析
|
| GraphX計算框架 |
圖并行計算
- 數(shù)據(jù)并行與圖并行計算
- 圖并行計算框架簡介
- GraphX簡介 GraphX模型設(shè)計
- 數(shù)據(jù)模型
- 圖計算接口 GraphX模型實現(xiàn)
- 圖的分布式存儲
- 圖操作執(zhí)行策略
- 圖操作執(zhí)行優(yōu)化
- 序列化和反序列化
- GraphX內(nèi)置算法庫 GraphX應(yīng)用
- Pregel模型
- N維鄰接關(guān)系計算
|
| Tachyon存儲系統(tǒng) |
設(shè)計原理
框架設(shè)計
- 主節(jié)點
- 工作節(jié)點
- 客戶端
- 讀寫工作流程 Tachyon的部署
- 單機部署
- 分布式部署
- Tachyon的配置 Tachyon應(yīng)用?
|