
曙海教學優(yōu)勢
本課程面向企事業(yè)項目實際需要,秉承二十一年積累的教學品質,Spark大數(shù)據(jù)處理案例分析與實踐培訓課程以項目實現(xiàn)為導向,老師將會與您分享設計的全流程以及工具的綜合使用技巧、經驗。線上/線下/上門皆可,Spark大數(shù)據(jù)處理案例分析與實踐培訓課程專家,課程可定制,熱線:4008699035。
大批企業(yè)和曙海
建立了良好的合作關系,合作企業(yè)30萬+。曙海的課程培養(yǎng)了大批受企業(yè)歡迎的工程師。曙海的課程在業(yè)內有著響亮的知名度。
本次Spark培訓將為大家全面而又深入的介紹Spark平臺的構建流程,涉及Spark系統(tǒng)基礎知識,概念及架構, Spark實戰(zhàn)技巧,Spark經典案例等。
通過本課程實踐,幫助學員對Spark生態(tài)系統(tǒng)有一個清晰明了的認識;理解Spark系統(tǒng)適用的場景;掌握Spark等初中級應用開發(fā)技能;搭建穩(wěn)定可靠的Spark集群,滿足生產環(huán)境的標準;了解和清楚大數(shù)據(jù)應用的幾個行業(yè)中的經典案例,包括阿里巴巴,騰訊,百度等互聯(lián)網(wǎng)行業(yè),中國移動和聯(lián)通等運營商。
Spark已經被不少互聯(lián)網(wǎng)公司采用,大部分數(shù)據(jù)挖掘算法和迭代式算法在逐步MapReduce平臺遷移到Spark平臺中,包括阿里巴巴(廣告系統(tǒng)),騰訊(廣點通精準推薦),百度,優(yōu)酷土豆,360,支付寶等互聯(lián)網(wǎng)公司已經在線上產品中使用spark,且取得了令人滿意的效果,另外,部分省份的運營商也正在嘗試使用spark解決數(shù)據(jù)挖掘和分析問題,部分銀行,如工商銀行,也正在嘗試spark平臺。
各類 IT/軟件企業(yè)和研發(fā)機構的軟件架構師、軟件設計師、程序員。對于懷有設計疑問和問題,需要梳理解答的團隊和個人,效果最佳。
1) 了解Java語言(Scala語言會作為課程內容進行介紹);
2) 了解Linux系統(tǒng);
Spark大數(shù)據(jù)架構概述及案例簡介
1. 1介紹Spark大數(shù)據(jù)層級架構及各層軟件設計要求,包括數(shù)據(jù)收集,大數(shù)據(jù)存儲,大數(shù)據(jù)計算框架,大數(shù)據(jù)應用等
1.2. Hadoop與Spark區(qū)別與關系
1.3. Spark生態(tài)系統(tǒng)概述以及版本演化,并給出spark版本選擇建議
1.4. Spark典型案例簡介(簡要介紹案例,具體在后面各節(jié)會詳細介紹)
Spark商品推薦系統(tǒng)、用戶標簽系統(tǒng)
Spark產生動機與基本概念
2.1 Spark產生背景,與MapReduce對比,其優(yōu)缺點是什么
2.2 Spark核心概念
(1)RDD
(2)基本操作:transformation與 action
2.2 Spark程序架構
(1)Driver/executor
(2)容錯機制
Spark安裝部署
3.1 Spark運行模式簡介、standlone模式、Spark on yarn模式
3.2 搭建一個spark on yarn集群、搭建yarn集群、運行第一個spark程序
Spark程序設計實例
4.1 Scala語言基礎,常用語法以及庫函數(shù)
4.2 Spark程序設計方法
1.Spark程序基本構成,SparkContext,RDD,transformation/action
2.Spark API介紹
(1) 如何創(chuàng)建RDD(scala集合,HDFS文件,HBase文件等)
(2)如何基于RDD進行數(shù)據(jù)處理,介紹常見的分布式算子
(3)如何保存處理結果(返回到driver端,寫入hdfs等)
(4)廣播變量與累加器
4.3 Spark程序設計實例
(1)分布式Pi估算程序
(2)K-means分類算法實現(xiàn)
(3)邏輯回歸算法實現(xiàn)
Spark內部原理
5.1 Spark程序運行流程概述
介紹Spark從提交,到調度,到最后執(zhí)行完成整個過程
5.2 Spark內部執(zhí)行流程
介紹Spark程序內部的邏輯查詢計劃,物理查詢計劃,調度等幾個環(huán)節(jié)
5.3 Spark shuffle實現(xiàn)
介紹Spark shuffle發(fā)展史及實現(xiàn)邏輯
5.4 Spark算子的內部機制
以reduce By Key和group By Key為例介紹spark算子的內部實現(xiàn)原理
Spark與外部系統(tǒng)整合
6.1 Spark與Kafka和flume結合
介紹如何使用kafka和flume將數(shù)據(jù)導入hadoop中,以便使用spark處理
6.2 Spark與Storm結合
介紹如何使用spark實時處理數(shù)據(jù)
6.3 Spark與HBase和HDFS結合
介紹Spark如何與HBase和HDFS實現(xiàn)數(shù)據(jù)的讀寫交互
6.4 Spark與關系型數(shù)據(jù)庫和hive結合
介紹如何使用spark與關系型數(shù)據(jù)庫和hive結合
Spark調優(yōu)方法
Spark調優(yōu)思想、方法
Spark案例分析
基于Spark的商品推薦系統(tǒng),包括:項目背景、項目架構、項目實施
Spark Streaming應用及案例分析
8.1 Spark Streaming產生動機
8.2 Spark Streaming程序設計
(1)創(chuàng)建DStream
(2)基于DStream進行流式處理
8.3 Spark Streaming容錯與性能優(yōu)化
(1)Spark Streaming容錯機制
(2)如何對spark Streaming進行優(yōu)化
8.4 Spark Streaming案例分析
基于Spark Streaming的用戶標簽系統(tǒng),內容包括項目背景,項目架構以及實施方法
Spark SQL
9.1 Spark SQL定位
9.2 如何使用SparkSQL處理數(shù)據(jù)
(1)使用SparkSQL處理HDFS上數(shù)據(jù)
(2)使用SparkSQL處理Hive中的數(shù)據(jù)
9.3 Spark SQL與Spark及Spark Streaming結合
MLlib
10. 介紹Spark的數(shù)據(jù)挖掘庫MLlib,重點介紹其內部的幾個分類算法,聚類算法和推薦算法,包括邏輯回歸,K-Means,協(xié)同過濾等
GraphX
11. 介紹Spark內部的圖計算框架GraphX,重點介紹它的基本原理及使用方法