一、 培訓特色
課程培訓業界最流行、應用最廣泛的Hadoop與Spark大數據技術體系。強化大數據平臺的分布式集群架構和核心關鍵技術實現、大數據應用項目開發和大數據集群運維實踐、以及Hadoop與Spark大數據項目全過程沙盤模擬實戰。
通過一個完整的大數據開發項目及一組實際項目訓練案例,完全覆蓋Hadoop與Spark生態系統平臺的應用開發與運維實踐。課堂實踐項目以項目小組的形式進行沙盤實操練習,重點強化理解Hadoop與Spark大數據項目各個階段的工作重點,同時掌握作為大數據項目管理者的基本思維素養。
本課程的授課師資都是有著多年在一線從事Hadoop與Spark大數據項目的資深講師,采用原理技術剖析和實戰案例相結合的方式開展互動教學、強化以建立大數據項目解決方案為主體的技術討論與咨詢,在學習的同時促進講師學員之間的交流,讓每個學員都能在課程培訓過程中學到實實在在的大數據技術知識,具備實際項目動手開發實踐與部署運維能力。授課過程中學員可將具體工作中遇到的實際問題拿出來,講師會根據學員的實際情況微調授課內容,并給出一定的時間讓學員上臺發言,由講師帶著全部學員積極討論,
二、 培訓目標
- 深刻理解在“互聯網+”時代下大數據的產生背景、發展歷程和演化趨勢,洞察大數據的潛在價值,結合業界市場需求和國內外最新的大數據技術潮流,掌握大數據項目解決方案以及業界大數據應用案例,從而為企業在大數據項目中的技術選型及技術架構設計提供決策參考,幫助學員為企業在利用大數據方面體現出自身價值。
- 全面掌握業界最流行的Hadoop與Spark大數據技術體系,掌握包括大數據采集技術、大數據分布式存儲技術、NoSQL與NewSQL分布式數據庫技術、大數據倉庫與統計機器學習技術、大數據分析挖掘與商業智能(BI)技術、大數據離線處理技術、Storm流式大數據處理技術、基于內存計算的大數據實時處理技術,以及大數據管理技術的原理知識和應用實戰。
- 深入理解大數據平臺技術架構和使用場景,能嫻熟地運用Hadoop與Spark大數據技術體系規劃解決方案滿足實際項目需求,部署符合生產環境要求的Hadoop大數據集群,熟練地掌握基于Hadoop與Spark大數據平臺進行應用程序開發、集群運維管理和性能調優技巧,并通過具體的實訓項目貫穿整個課程進行實戰鍛煉。
- 課程安排
日程
|
培訓模塊
|
培訓要點
|
第一天
上午
|
一、 大數據技術基礎入門
|
- 大數據的產生背景、發展歷程
- 大數據和云計算的關系
- 大數據應用需求以及潛在價值分析
- 業界最新的大數據技術發展態勢與應用趨勢
- 大數據項目的技術選型與架構設計
- “互聯網+”時代下的電子商務、制造業、零售批發業、電信運營商、互聯網金融業、網上銀行、電子政務、移動互聯網、教育信息化等行業應用實踐與應用案例剖析
|
二、 業界主流的大數據技術產品與項目解決方案
|
- 國內外主流的大數據解決方案介紹
- 當前大數據解決方案與傳統數據庫方案的剖析比較
- Apache大數據平臺方案剖析
- CDH大數據平臺方案剖析
- HDP大數據平臺方案剖析
- 開源的大數據生態系統平臺剖析
|
三、 Hadoop與Spark大數據處理平臺
|
- Hadoop的發展歷程以及產業界的實際應用介紹
- Hadoop大數據平臺架構,以及PB級大數據處理工作原理與機制
- Hadoop的核心組件剖析
- Spark的發展歷程以及業界的實際應用介紹
- Spark實時大數據處理平臺架構,以及內存大數據處理工作原理與機制
- Spark的核心組件剖析
|
第一天
下午
|
四、 大數據采集與分布式消息訂閱系統
|
- Flume-NG數據采集系統的數據流模型、平臺架構、集群部署與配置應用實戰
- Kafka分布式消息訂閱系統的應用介紹、平臺架構、集群部署與配置應用實戰
- Scribe分布式日志收集系統的簡介、工作原理、平臺架構、集群部署與配置應用實戰
- ZooKeeper分布式協調服務系統的工作原理、平臺架構、集群部署與配置應用實戰
|
五、 大數據分布式存儲系統
|
- 分布式文件系統HDFS的簡介
- HDFS系統的主從式平臺架構和工作原理
- HDFS核心技術講解
- HDFS應用開發實戰
- HDFS集群的安裝、部署、配置與性能優化技巧
- 分布式鍵值存儲系統介紹、平臺架構、核心技術以及應用開發
- PB及大數據存儲系統的項目案例分析
|
六、 大數據MapReduce與Yarn并行處理平臺
|
- MapReduce并行計算模型
- MapReduce作業執行與調度技術
- 第二代大數據計算框架Yarn的工作原理以及DAG并行執行機制
- MapReduce應用開發環境的部署,以及大數據并行處理應用程序開發
- MapReduce高級編程技巧與性能優化實踐
- MapReduce與Yarn項目案例實踐
|
第二天
上午
|
七、 大數據Spark實時處理平臺
|
- 內存計算模型和實時處理技術介紹
- Spark分布式實時處理框架及工作原理
- Spark集群的平臺架構及其生態系統組件剖析
- Spark SQL應用實踐
- Spark Streaming應用實踐
- MLib/MLBase實時機器學習應用實踐
- GraphX實時圖數據處理應用實踐
- Spark實時處理集群的安裝部署與配置優化
- Spark的編程開發應用實戰
- Spark與Hadoop的對接集成解決方案實踐
|
八、 Storm流式數據處理平臺
|
- Storm流式處理系統介紹、平臺架構以及工作原理
- Storm集群安裝部署與配置優化
- Storm日志分析項目應用實戰
|
第二天
下午
|
九、 HBase分布式數據庫管理系統
|
- NoSQL數據庫與NewSQL數據庫技術介紹,及其在半結構化和非結構化大數據方面的應用實踐
- HBase分布式數據庫簡介、數據模型以及工作原理
- HBase分布式數據庫集群的平臺架構和關鍵技術剖析
- HBase應用項目開發技巧,以及客戶端開發實戰
- HBase表設計與數據操作以及數據庫管理API調用
- HBase集群的安裝部署與配置優化
- HBase集群的運維與監控管理
|
|
十、 Cassandra數據管理系統
|
- Cassandra數據存儲管理系統的應用介紹
- Cassandra集群的平臺架構以及核心關鍵技術
- Cassandra一致性哈希算法與數據對象分布策略
- Cassandra集群的安裝部署與配置優化
- Cassandra應用開發實戰
|
第三天
上午
|
十一、 內存數據庫管理系統集群
|
- Impala實時查詢系統的應用介紹
- Impala實時查詢系統平臺架構、核心關鍵技術剖析
- Impala實時查詢系統的部署與應用開發實踐
- Redis內存數據庫介紹,以及業界應用案例
- Redis內存數據庫集群架構以及核心技術剖析
- Redis集群的安裝部署與應用開發實戰
|
十二、 大型數據倉庫Hive集群平臺
|
- 基于Hadoop的大型分布式數據倉庫基礎知識,以及在行業中的應用實踐案例
- 基于Spark的實時數據倉庫集群基礎知識,以及在行業中的應用實踐案例
- Hive大數據倉庫簡介以及應用介紹
- Hive數據倉庫集群的平臺體系結構、核心技術剖析
- Hive Server工作原理與應用技巧
- Hive數據倉庫集群的安裝部署與配置優化
- Hive應用開發技巧
- Hive QL定義以及應用
- Hive數據倉庫表與表分區、表操作、數據導入導出、客戶端操作技巧
- Hive數據倉庫報表設計、HWI、CLI客戶端演示以及用戶自定義函數(UDF)的開發實踐
|
第三天
下午
|
十三、 Mahout大數據分析挖掘平臺
|
- 大數據分析挖掘技術介紹,以及行業大數據挖掘應用案例
- Mahout大數據挖掘平臺的體系架構、核心算法與關鍵技術運用
- 基于Mahout的數據挖掘應用程序開發實戰
- Mahout集群的安裝部署與配置優化
- 集成Mahout與Hadoop集成大數據挖掘平臺應用實戰
|
十四、 大數據智能化ETL操作以及Hadoop集群運維監控工具平臺應用
|
- Hadoop與DBMS之間進行數據轉換的框架
- Sqoop導入導出數據的工作原理,以及Sqoop集群安裝部署與配置
- Kettle集群的平臺架構、核心技術工作原理以及應用案例
- Kettle集群安裝部署與配置,以及應用開發實戰
- 利用Sqoop實現MySQL與Hadoop集群之間的數據導入導出交互程序
- Hadoop大數據運維監控系統HUE平臺的安裝部署與配置優化
|
十五、 大數據項目應用實戰
|
- 根據布置的實際應用案例,開展大數據完整項目部署設計和應用開發實踐
|