
曙海教學(xué)優(yōu)勢
該課程,秉承21年教學(xué)品質(zhì),以項目實現(xiàn)為導(dǎo)向,面向企事業(yè)單位項目實際需求,講師將會與您分享設(shè)計的全流程以及工具的綜合使用技巧與經(jīng)驗。課程可定制,線下/線上/上門皆可,全國免費報名熱線:4008699035。
曙海培訓(xùn)的課程培養(yǎng)了大批受企業(yè)歡迎的工程師。大批企業(yè)和曙海
建立了良好的合作關(guān)系,合作企業(yè)三十多萬家。曙海的課程得到業(yè)內(nèi)企事業(yè)單位廣泛贊譽(yù)。
????Hadoop作為開源的云計算平臺,為大數(shù)據(jù)處理提供了一整套解決方案,應(yīng)用非常廣泛。Hadoop作為一個平臺框架,包括了如何存儲海量數(shù)據(jù),如何處理海量數(shù)據(jù),以及相應(yīng)的數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)流處理、數(shù)據(jù)分析和挖掘算法庫,等等。本課程主要介紹Hadoop的思想、原理,以及重要技術(shù)等相關(guān)知識。
深刻理解Hadoop原理與調(diào)優(yōu) 深刻理解Hive原理掌握程序開發(fā) 深刻理解Hbase 掌握程序開發(fā) 深刻理解Hadoop 日常運維管理
?
|
課程主題? |
課程內(nèi)容? |
|
Hadoop和傳統(tǒng)數(shù)據(jù)庫技術(shù)優(yōu)劣勢對比? |
???Hadoop/Hive 對比 Oracle 在構(gòu)建數(shù)據(jù)倉庫上的優(yōu)劣勢? ???Hadoop 如何和傳統(tǒng)IT系統(tǒng)配合完成原來不可能的任務(wù)? ???Hadoop版本講解及Hadoop新舊版本使用對比? |
|
案例及實驗? |
|
|
???Apache社區(qū)版本:Cloudera 版本、MapR版本、Intel版本、Oracle、Dell、HP版本? |
|
|
Hadoop的來源和動機(jī)? |
???傳統(tǒng)大規(guī)模系統(tǒng)存在的問題 ???Hadoop概述 ???Hadoop分布式文件系統(tǒng) ???MapReduce工作原理 ???Hadoop集群剖析 ???Hadoop生態(tài)系統(tǒng)對一種新的解決方案的需求? ???Hadoop的行業(yè)應(yīng)用案例分析? ???Hadoop在云計算和大數(shù)據(jù)的位置和關(guān)系? ???非結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用? |
|
案例及實驗? |
|
|
???某銀行數(shù)據(jù)統(tǒng)一處理平臺,通過Hadoop進(jìn)行系統(tǒng)優(yōu)化? ???某電信運營商用戶行為分析系統(tǒng)? ???某電力行業(yè)數(shù)據(jù)采集大數(shù)據(jù)分析案例? ???聯(lián)通使用Hadoop/Hbase解決3G詳單查詢問題。? |
|
|
Hadoop生態(tài)系統(tǒng)介紹和演示? |
???Hadoop HDFS 和 MapReduce ???Hadoop數(shù)據(jù)庫之HBase ●?HBase架構(gòu)及如何應(yīng)用與編程開發(fā)相結(jié)合 ???Hadoop數(shù)據(jù)倉庫之Hive? ●?Hive架構(gòu)及如何應(yīng)用與編程開發(fā)相結(jié)合 ???Hadoop數(shù)據(jù)處理腳本Pig ●?Pig架構(gòu)及如何應(yīng)用與編程開發(fā)相結(jié)合 ???Hadoop數(shù)據(jù)接口Sqoop和Flume ●?Sqoop和Flume架構(gòu)及如何應(yīng)用與編程開發(fā)相結(jié)合 ???Hadoop工作流引擎 Oozie? ●?Oozie架構(gòu)及如何應(yīng)用與編程開發(fā)相結(jié)合 ???Hadoop生態(tài)系統(tǒng)各模塊應(yīng)用與編程開發(fā)相結(jié)合 |
|
案例及實驗? |
|
|
???某銀行如何使用Hadoop統(tǒng)一數(shù)據(jù)平臺? ???手機(jī)上網(wǎng)日志分析? ???移動GPRS上網(wǎng)日志查詢系統(tǒng)? ???國家電網(wǎng)城區(qū)用電量分析? ???聯(lián)通不良信息檢測系統(tǒng)? ???電廠海量數(shù)據(jù)監(jiān)控分析系統(tǒng)? ???某銀行數(shù)據(jù)統(tǒng)一處理平臺? ???海量指紋比對系統(tǒng)? |
|
|
Hadoop集群調(diào)優(yōu)? |
l?選擇適合hadoop的硬件配置 l?Hadoop配置項優(yōu)化 ??Hadoop配置優(yōu)化 - core-site.xml ??Hadoop配置優(yōu)化 - hdfs-site.xml ??Hadoop配置優(yōu)化 - mapred-site.xml ??Hadoop配置優(yōu)化 - 機(jī)架感知 l?網(wǎng)絡(luò)帶寬參數(shù)調(diào)優(yōu) ??系統(tǒng)參數(shù)調(diào)優(yōu) ??配置文件管理 ??嚴(yán)格控制root權(quán)限 ??Java的GC模式 l?選擇正確的JDK l?hadoop作業(yè)調(diào)優(yōu) ??Map side tuning設(shè)置 ??Map side設(shè)置 l?Linux操作系統(tǒng)優(yōu)化 l?其他配置和參數(shù)調(diào)優(yōu) |
|
案例及實驗? |
|
|
l?Hadoop硬件優(yōu)化 l?不是所有的硬件都合適拿來直接使用 ??安裝調(diào)優(yōu)的第一步服務(wù)器硬件的選型的竅門 ??如何選擇適合業(yè)務(wù)使用的CPU ??內(nèi)存越大越好嗎?設(shè)置合理的的內(nèi)存配置 ??連接網(wǎng)絡(luò)的選擇和優(yōu)化 ??高速硬盤的選擇注意事項 l?硬盤為什么不做raid? l?設(shè)置網(wǎng)絡(luò)的注意事項 l?中間結(jié)果壓縮對磁盤和網(wǎng)絡(luò)的優(yōu)化 l?機(jī)架感知,網(wǎng)絡(luò)和磁盤IO優(yōu)化作用,確定存儲的具體位置, l?內(nèi)存參數(shù),map/reduce槽位數(shù)的計算方法。 l?對磁盤和網(wǎng)絡(luò)的優(yōu)化 l?Java工具使用,jstack使用 l?Sun和open之間的區(qū)別,JIT編譯器的使用 l?inux系統(tǒng)參數(shù)調(diào)優(yōu) ??Linux監(jiān)控系統(tǒng)的使用 ??cacti, ??ganglia ??常用的linux排錯工具lsof,strace,iostat,vmstat,netstat... l?常見異常現(xiàn)象級處理方法? ??網(wǎng)卡流量導(dǎo)致連接失敗 ??權(quán)限錯誤 ??主機(jī)名IP轉(zhuǎn)換錯誤 ??NN與DN namespaceID不一致 ??磁盤滿導(dǎo)致報錯 ??Jave heap size OOM |
|
|
Hadoop 2.0? |
l?Hadoop 1.0 存在的問題及現(xiàn)有的解決方案? l?Hadoop 2.0 各廠商版本對比? l?Apahce and CDH4? l?Hadoop 2.0 項目結(jié)構(gòu)解析? l?Hadoop 2.0 環(huán)境搭建? l?Yarn 與MapReduce的不同? l?Yarn 原理與架構(gòu)? l?Apache YARN基本框架? l?Apache YARN工作流程? l?Apache YARN設(shè)計細(xì)節(jié)? l?MapReduce與YARN結(jié)合? l?如何與Yarn來結(jié)合? l?yarn的優(yōu)化、資源管理、優(yōu)先級管理。 l?Hadoop 生態(tài)系統(tǒng)解析? l?Hadoop 小圖檔方案? l?Hadoop 2.0 HDFS 運維管理? n?丟失block的情況分析? 常見的故障排查? |
|
HDFS高級程序?qū)崙?zhàn)演練? |
???HDFS實戰(zhàn)-命令行等使用? ???HDFS命令行工具 ???啟動、停止HDFS服務(wù) ???如何查看HDFS日志 ???如何查看HDFS Web控制臺 ???HDFS參數(shù)配置 |
|
案例及實驗? |
|
|
???HDFS實戰(zhàn)-Java API使用? ???Eclipse 開發(fā)環(huán)境介紹? ???HDFS 開發(fā)基本步驟? ???HDFS Java API詳解? ???Configuration? ???Path? ???FileSystem? ???Stream、IOUtils? |
|
|
Hadoop HDFS HA方案介紹? |
???Hadoop 1.0 系 HA的一些辦法? ???Hadoop 2.0 介紹? |
|
MapReduce高級程序?qū)崙?zhàn)演練? |
???使用 Hadoop MapReduce Streaming 編程? ???MapReduce流程 ???剖析一個MapReduce程序 ???基本MapReduceAPI 概念 ???驅(qū)動代碼 Mapper、Reducer? ???Hadoop流 ???API 使用Eclipse進(jìn)行快速開發(fā) ???新MapReduce API ???MapReduce的優(yōu)化? ???MapReduce的任務(wù)調(diào)度? ???MapReduce編程實戰(zhàn) ???滿足解決實際數(shù)據(jù)分析問題的高級Hadoop API? |
|
案例及實驗? |
|
|
???Hadoop Streaming 和 Java MapReduce Api 差異。? ???MapReduce 實現(xiàn)數(shù)據(jù)庫功能? ???利用Combiners來減少中間數(shù)據(jù)? ???編寫Partitioner來優(yōu)化負(fù)載平衡? ???直接訪問Hadoop分布式文件系統(tǒng)(HDFS)? ???Hadoop的join操作? ???輔助排序在Reducer方的合并? ???定制Writables和WritableComparables ???使用SequenceFiles和Avro文件保存二進(jìn)制數(shù)據(jù) ???創(chuàng)建InputFormats OutputFormats? ???Hadoop的二次排序? ???Hadoop的海量日志分析? ???在Map方的合并 |
|
|
Hadoop SQL 接口Hive? |
???Hive基礎(chǔ) ???Hive的作用和原理說明? ???Hadoop倉庫和傳統(tǒng)數(shù)據(jù)倉庫的協(xié)作關(guān)系;Hive與傳統(tǒng)數(shù)據(jù)庫的對接使用? ???Hadoop/Hive倉庫數(shù)據(jù)數(shù)據(jù)流? ???Hive Cli 的基本用法? ???HQL基本語法? ???自行編寫數(shù)據(jù)庫與Hadoop相互ETL工具的思路? |
|
案例及實驗? |
|
|
???使用JDBC 連接Hive進(jìn)行查詢和分析? ???使用正則表達(dá)式加載數(shù)據(jù)? ???HQL高級語法? ???編寫UDF函數(shù)? ???編寫UDAF自定義函數(shù)? ???執(zhí)行嵌套sql的優(yōu)化? |
|
|
Hadoop數(shù)據(jù)庫之HBase及HBase優(yōu)化? |
???hbase概念與架構(gòu) ???hbase核心知識點? ???hbase安裝、部署? ???HBase配置優(yōu)化綜述? ???表設(shè)計優(yōu)化相關(guān)參數(shù)? ???監(jiān)控工具使用方法及注意事項? ???常見異?,F(xiàn)象級處理方法? |
|
案例及實驗? |
|
|
???hot region造成讀請求瓶頸? ???region預(yù)劃分? ???Memstore合并設(shè)置的時機(jī)選擇? ???合并storefile策略設(shè)置技巧? ???Memstore flush設(shè)置時機(jī)選擇? ???Hbase-env.sh、Single、multi-thread、CMS使用及參數(shù)調(diào)整? ???GC回收垃圾時機(jī)、GC日志打印設(shè)置? ???GC階段,region無法提供服務(wù)如何如何處理? ???Split時機(jī)控制(增大、disable)方法? ???CF數(shù)量多少對讀寫性能的影響? ???自動關(guān)閉flush的目的? |
?
?