
曙海教學(xué)優(yōu)勢
面向企事業(yè)單位的項(xiàng)目實(shí)際需要,本課程以項(xiàng)目實(shí)現(xiàn)為導(dǎo)向,秉承二十一年教學(xué)品質(zhì),授課老師將會與您分享設(shè)計(jì)的全流程以及工具的綜合使用技巧以及經(jīng)驗(yàn)。您可以定制課程,線上/線下/上門都可以,報名熱線:4008699035。
二十多年來,曙海培訓(xùn)的課程培養(yǎng)了大批受歡迎的工程師。曙海的課程在業(yè)內(nèi)廣受好評。大批企事業(yè)單位和曙海
建立了良好的合作關(guān)系,合作企業(yè)30萬+。
?Spark深入淺出企業(yè)級最佳實(shí)踐
培訓(xùn)內(nèi)容
第一部分
1、Spark的架構(gòu)設(shè)計(jì)
1.1?Spark生態(tài)系統(tǒng)剖析
1.2?Spark的架構(gòu)設(shè)計(jì)剖析
1.3?RDD計(jì)算流程解析
1.4?Spark的出色容錯機(jī)制
2、Spark編程模型
2.1?RDD
2.2?transformation
2.3?action
2.4?lineage
2.5寬依賴與窄依賴
3、深入Spark內(nèi)核
3.1?Spark集群
3.2?任務(wù)調(diào)度
3.3?DAGScheduler
3.4?TaskScheduler
3.5?Task內(nèi)部揭秘
4、Spark的廣播變量與累加器
4.1?廣播變量的機(jī)制
4.2?廣播變量使用最佳實(shí)踐
4.3?累加器的機(jī)制
4.4?累加器使用的最佳實(shí)踐
5、編寫Spark程序
5.1?程序數(shù)據(jù)的來源:File、HDFS、HBase、S3等
5.2?IDE環(huán)境構(gòu)建
5.3?Maven
5.4?sbt.
5.5?編寫并部署Spark程序的實(shí)例
6、SparkContext解析和數(shù)據(jù)加載以及存儲
6.1?源碼剖析SparkContext
6.2?Scala、Java、Python使用SparkContext
6.4?加載數(shù)據(jù)成為RDD
6.5?把數(shù)據(jù)物化
第二部分
7、深入實(shí)戰(zhàn)RDD
7.1?DAG
7.2?深入實(shí)戰(zhàn)各種Scala?RDD?Function?
7.3?Spark?Java?RDD?Function
7.4?RDD的優(yōu)化問題
8、Shark的原理和使用
8.1?Shark與Hive
8.2?安裝和配置Shark
8.3?使用Shark處理數(shù)據(jù)
8.4?在Spark程序中使用Shark?Queries
8.5?SharkServer
8.6?思考Shark架構(gòu)
9、Spark的機(jī)器學(xué)習(xí)
9.1?LinearRegression
9.2?K-Means
9.3?Collaborative?Filtering
10、Spark的圖計(jì)算GraphX
10.1?Table?Operators
10.2?Graph?Operators
10.3?GraphX
11、Spark?SQL
11.1?Parquet支持
11.2?DSL
11.3?SQL?on?RDD
第三部分
12、Spark實(shí)時流處理
12.1?DStream
12.2?transformation
12.3?checkpoint
12.4?性能優(yōu)化
13、Spark程序的測試
13.1?編寫可測試的Spark程序
13.2?Spark測試框架解析
13.3?Spark測試代碼實(shí)戰(zhàn)
14、Spark的優(yōu)化
14.1?Logs
14.2?并發(fā)
14.3?內(nèi)存
14.4?垃圾回收
14.5?序列化
14.6?安全
15、Spark?on?Yarn
15.1?Spark?on?Yarn的架構(gòu)原理
15.2?Spark?on?Yarn的最佳實(shí)踐
16、JobServer
16.1?JobServer的架構(gòu)設(shè)計(jì)
16.2?JobServer提供的接口
16.3?JobServer最佳實(shí)踐