北京大數(shù)據(jù)開發(fā)培訓課程

認證機構

本課程由北京光環(huán)國際提供,有122瀏覽量

課程分類:  大數(shù)據(jù)開發(fā)

適合對象:  

咨詢電話:  400-968-9396

上課地點:  [海淀校區(qū)] 北京市海淀北三環(huán)西路31號23幢一層123室

開班日期:  滾動開班

學       費:  咨 詢

班       級:  
  • 海淀校區(qū)
  • 網(wǎng)校
 
人       數(shù):
 
報名試聽 我要咨詢

課程簡介

本文將介紹光環(huán)國際大數(shù)據(jù)開發(fā)培訓課程業(yè)內獨有實戰(zhàn)課程模式、教你高薪、好用、不過時的技術。

前置視頻基礎階段

1-大數(shù)據(jù)學習中的
    Linux基礎

【課程內容】Linux安裝使用、Linux文件系統(tǒng)、Linux用戶和進程管理、 Shell和網(wǎng)絡基礎、git工具、 Linux小測驗。

【課程目標】掌握Linux使用方式和常見命令;熟悉Linux環(huán)境,包括shell和git使用

2-大數(shù)據(jù)學習中的
    java基礎

【課程內容】Java簡介,包括跨平臺、虛擬機、JDK等、 Java編程基礎,函數(shù)、循環(huán)語句、變量等、Java高級特性,類、繼承、多態(tài)等、Java數(shù)據(jù)集合,包括List、Map、Set等介紹、自動化項目管理工具Maven、 Java小測驗。

【課程目標】掌握Java基本語法,能夠使用Java編寫包含類、函數(shù)、循環(huán)等語言的代碼;熟悉Java編程環(huán)境,包括集成開發(fā)工具eclipse/IDEA,項目管理工具等

3-Hadoop課程延展

【課程內容】分布式文件儲存系統(tǒng)HDFS進階,分布式數(shù)據(jù)庫HBase進階,分布式計算引擎MapReduce基礎與進階,Zookeeper與YARN

【課程目標】深度學習hadoop系統(tǒng),包括高級特性,優(yōu)化等;增加hadoop大數(shù)據(jù)技術學習廣度,拓展眼界

4-Spark課程延展

【課程內容】分布式計算框架Spark Core和Spark SQL進階和調優(yōu),函數(shù)式編程語言scala

【課程目標】深度學習Spark系統(tǒng),包括高級特性,優(yōu)化等,增加Spark大數(shù)據(jù)技術學習廣度,拓展眼界

入學考試:通過考試后正式進入大數(shù)據(jù)技術學習階段
 
周末面授階段
第 一階段:Hadoop生態(tài)體系本階段涉及的實戰(zhàn)項目:hadoop分布式集群搭建;用戶畫像系統(tǒng);日志收集系統(tǒng);Hive數(shù)據(jù)倉庫構建。

5-大數(shù)據(jù)概述、分布式數(shù)據(jù)收集系統(tǒng):Sqoop與Flume

【理論部分】大數(shù)據(jù)概論、 大數(shù)據(jù)技術體系(按照六層架構介紹:數(shù)據(jù)收集、數(shù)據(jù)存儲、資源管理、計算引擎、數(shù)據(jù)分析以及可視化),Hadoop發(fā)展歷程、Hadoop生態(tài)系統(tǒng)概述/結構化數(shù)據(jù)收集Sqoop:背景、架構、原理以及使用 、非結構化(日志)數(shù)據(jù)收集系統(tǒng)Flume:背景、架構、原理及使用;


【實戰(zhàn)部分】利用Flume從指定目錄中收集數(shù)據(jù)到HDFS、利用Sqoop將MySQL表中數(shù)據(jù)寫HDFS。

【課程目標】 掌握大數(shù)據(jù)收集系統(tǒng)架構,能夠使用sqoop和flume構建企業(yè)級大數(shù)據(jù)收集系統(tǒng)。

6-分布式消息隊列:Kafka、分布式存儲系統(tǒng):文件系統(tǒng)HDFS

【理論部分】概述 、基本架構與工作原理、應用場景以及經典的架構組合等、HDFS簡介、優(yōu)缺點、架構(主節(jié)點NameNode、從節(jié)點DataNode、journal node的解析) 、核心設計(數(shù)據(jù)塊、數(shù)據(jù)副本的存放策略、安全模式、負載均衡、機架感應等)、HDFS操作(命令行接口、Java接口)


【實戰(zhàn)部分】搭建Kafka集群、如何編寫Producer將數(shù)據(jù)寫入Kafka、如何編寫Consumer從Kafka中讀取數(shù)據(jù)、搭建HDFS集群、使用NameNode Web UI、使用HDFS Shell利用Java編寫程序從HDFS中讀數(shù)據(jù)、利用Java編寫程序將數(shù)據(jù)寫入HDFS中、利用Java刪除HDFS上的文件和目錄

7-分布式存儲系統(tǒng):分布式數(shù)據(jù)庫HBase

【理論部分】HBase簡介、優(yōu)缺點、架構以及HBase API使用等


【實戰(zhàn)部分】搭建Hbase集群、使用Hbase Web UI、使用HBase Shell、利用Java編寫程序在hbase中創(chuàng)建表、利用Java編寫程序向hbase表中寫入和讀取數(shù)據(jù)

【項目案例】用戶畫像系統(tǒng)、網(wǎng)絡爬蟲

【課程目標】掌握HBase系統(tǒng)架構,能夠編寫程序讀寫 HBase中存儲的數(shù)據(jù) 。

8-分布式分析引擎:Hive基礎

【理論部分】Hive背景、架構、 HQL的DML和DDL語法等


【實戰(zhàn)部分】Hive環(huán)境搭建、利用Hive創(chuàng)建表,并進行查詢、Hive創(chuàng)建ORC與Parquet表并查詢

【課程目標】熟練掌握HQL編寫方式,能夠使用Hive構建大數(shù)據(jù)倉庫系統(tǒng)

9-分布式分析引擎:Hive進階

【理論部分】Hive內部原理,多計算引擎(Tez與Spark),Hive創(chuàng)建ORC/Parquet表,Hive調優(yōu)


【實戰(zhàn)部分】程序方式訪問Hive、Hive調優(yōu)演示

【課程目標】掌握Hive內部原理,了解常見Hive的優(yōu)化方式。

10-交互式查詢引擎Presto

【理論部分】Presto基本架構,Presto與Hive對比,Presto基本使用。


【實戰(zhàn)部分】Presto集群搭建、Presto使用方式、Presto與Hive性能對比

【項目測試練習】 Hadoop測試(包括選擇題、簡單題和編程題三部分)

第二階段:Spark生態(tài)體系本階段涉及的實戰(zhàn)項目:電影受眾分析系統(tǒng)、用戶手機APP行為分析系統(tǒng)、用戶畫像系統(tǒng)(機器學習相關)

11-Spark 基礎

【理論部分】Java Lambda語法簡介 、Spark基礎原理與運行架構、Spark部署方式


【實戰(zhàn)部分】Spark開發(fā)環(huán)境搭建、使用Spark Web UI、如何將Spark程序運行到YARN上

【課程目標】掌握Spark基本原理,能夠搭建Spark開發(fā)和運行環(huán)境。

12-Spark 程序設計

【理論部分】Spark編程模型、內存彈性分布式數(shù)據(jù)集的工作原理和機制、Spark RDD transform、持久化、checkpoint、容錯與性能優(yōu)化


【實戰(zhàn)部分】如何利用intellij idea開發(fā)一個spark程序并運行到集群中、如何利用spark設計電影受眾分析程序

【課程目標】掌握常見的Spark API,熟練使用Spark開發(fā)大數(shù)據(jù)分析程序。

13-Spark SQL

【理論部分】流式計算基礎、spark streaming基礎原理 、基礎API介紹(包括map,filter,flatMap、foreachRDD,saveAsTextFile等)和高級API介紹(window, transform和mapWithState),Redis介紹


【實戰(zhàn)部分】利用Spark Streaming讀取HDFS中的數(shù)據(jù),經統(tǒng)計(按照window統(tǒng)計)后寫入HDFS:利用Spark Streaming讀取HDFS中的數(shù)據(jù),經統(tǒng)計后寫入Redis和HBase:利用mapWithState實現(xiàn)wordcount

【課程目標】掌握Spark Streaming工作原理及常見的API,能夠使用Spark Streaming編寫流式實時計算程序。

14-Spark Streaming進階

【理論部分】保存kafka offset并恢復、spark streaming容錯機制、spark streaming調優(yōu)方法、structured streaming原理及關鍵API


【實戰(zhàn)部分】利用Spark Streaming+kafka+redis實現(xiàn)“用戶手機app行為分析系統(tǒng)”、實現(xiàn)streuctured streaming版本的wordcount

【課程目標】掌握Spark Streaming調優(yōu)方法和高級編程技巧,能夠使用高級API編寫更加魯棒的分布式流式計算程序。

15-Spark MLlib數(shù)據(jù)分析挖掘程序

【理論部分】數(shù)據(jù)挖掘與機器學習基礎知識,以及機器學習案例、Spark MLib分類、聚類、推薦等算法,用戶畫像系統(tǒng)設計。


【實戰(zhàn)部分】回歸預測和局部加權線性回歸預測算法、近鄰KNN預測分析的算法、協(xié)同過濾算法的Spark實現(xiàn)技術應用、決策樹分類分析挖掘算法、邏輯回歸分類分析挖掘算法、貝葉斯分類分析挖掘算法等,互聯(lián)網(wǎng)用戶性別預測。

【課程目標】掌握常見的機器學習算法,能夠使用Spark MLLib工具包解決機器學習問題。

第三階段:深度學習課程體系本階段涉及的實戰(zhàn)項目:電影評論文本情感分析、電信客戶流失預測、基于深度學習的手寫字體識別

【第三階段】

16-深度學習課程體系

【理論部分】人工智能技術體系 ; 人工智能技術的數(shù)學與python基礎 ; 神經網(wǎng)絡(DNN,RNN及CNN等)和開源框架tensorflow及pytorch等


【實戰(zhàn)部分】電影評論文本情感分析(監(jiān)督學習,可應用在:各種評論文本的正負情感分類, 新聞的正負情感分類); 電信客戶流失預測(監(jiān)督學習, 可應用在:股價預測、流量預測,房價預測等方面中); 基于深度學習的手寫字體識別

【課程目標】掌握人工智能技術基礎,包括數(shù)學與python技術,了解神經網(wǎng)絡技術及開源框架tensorfow、pytorch等。

第四階段:企業(yè)級大數(shù)據(jù)項目實戰(zhàn)本階段涉及的實戰(zhàn)項目:用戶行為實時分析系統(tǒng)、信用卡欺詐分析系統(tǒng)、“雙十一”大數(shù)據(jù)日志分析系統(tǒng)、用戶畫像系統(tǒng)、電子商務推薦系統(tǒng)、商務智能報表系統(tǒng)。

17-spark企業(yè)應用:
用戶行為實時分析系統(tǒng)

【實戰(zhàn)部分】項目背景、開發(fā)需求、 項目架構、核心點講解; 項目架構、核心點講解; 數(shù)據(jù)展示、共性問題答疑 、項目總結。 講解主要架構:Kafka+Spark Streaming+Mysql


【課程目標】
掌握大數(shù)據(jù)流式系統(tǒng)基本架構 ; 學會使用kafka和spark streaming構建流式計算系統(tǒng) ; 熟練掌握使用spark streaming編寫魯棒的流式處理程序

18-spark企業(yè)應用:
信用卡欺詐分析系統(tǒng)

【實戰(zhàn)部分】項目背景、開發(fā)需求、 項目架構、核心點講解 ; 數(shù)據(jù)展示、共性問題答疑 、項目總結; 講解主要架構:HDFS + Spark Core + mllib


【課程目標】
熟悉機器學習應用 ; 熟悉如何使用HDFS和Spark解決實際問題

19-hadoop企業(yè)應用:
“雙十一”大數(shù)據(jù)日志分析系統(tǒng)


【實戰(zhàn)部分】項目背景、開發(fā)需求、 項目架構、核心點講解; 項目架構、核心點講解; 數(shù)據(jù)展示、共性問題答疑 、項目總結。 講解主要架構:hadoop+kafka+spark+presto/hive+echart/D3


【課程目標】
了解日志分析系統(tǒng)的基本架構 ; 熟練掌握如何采用hadoop和spark解決大數(shù)據(jù)分析問題 ; 使用常見的開源可視化工具對分析結果可視化

20-hadoop企業(yè)應用:
用戶畫像系統(tǒng)

【實戰(zhàn)部分】項目背景、開發(fā)需求、 項目架構、核心點講解; 項目架構、核心點講解; 數(shù)據(jù)展示、共性問題答疑 、項目總結。 用戶畫像系統(tǒng)常見場景簡介。 講解主要架構:flume+hbase+spark+redis+mllib


【課程目標】
掌握用戶畫像系統(tǒng)基本架構 ; 熟練使用HBase存儲海量結構化和半結構化數(shù)據(jù) ; 熟練使用mllib求解機器學習問題

21-大數(shù)據(jù)綜合應用:
電子商務推薦系統(tǒng)

【實戰(zhàn)部分】項目背景、開發(fā)需求、 項目架構、核心點講解; 項目架構、核心點講解; 數(shù)據(jù)展示、共性問題答疑 、項目總結。 講解主要架構:HDFS + HBase + Spark SQL + Spark Streaming


【課程目標】
掌握大數(shù)據(jù)設計架構lambda architecture;學會使用Hadoop和Spark技術解決復雜大數(shù)據(jù)問題

22-大數(shù)據(jù)綜合應用:
基于大數(shù)據(jù)的商務智能報表系統(tǒng)

【實戰(zhàn)部分】項目背景、開發(fā)需求、 項目架構、核心點講解; 項目架構、核心點講解; 數(shù)據(jù)展示、共性問題答疑 、項目總結。 講解主要架構:Hadoop + Hive + Presto + superset/tableau


【課程目標】
掌握大數(shù)據(jù)報表系統(tǒng)基本架構設計方法;學會使用Hadoop和Spark技術解決復雜大數(shù)據(jù)報表分析及可視化問題。

23-大數(shù)據(jù)面試攻略

【課程目標】公司大數(shù)據(jù)崗位核心技能需求。了解所需知識和技能,以及主流的大數(shù)據(jù)工具和框架的使用方法。 講解大數(shù)據(jù)開發(fā)工程師崗位面試的常見筆試題。會涵蓋主流的互聯(lián)網(wǎng)公司的面試題 目,深入淺出,結合實際場景分析。 講解常大數(shù)據(jù)研發(fā)面試問題,開放式問題和系統(tǒng)設計問題,融匯貫通整個課程知識點。

為什么選擇光環(huán)國際

定制學習計劃

全方位督學服務

定期開展小組活動

 

開設班級

班級 開班時間 上課地點 學費 試聽/報名
海淀校區(qū)/ 面授 到期開班 北京海淀北三環(huán)西路31號23幢一層123室 咨詢 報名
網(wǎng)校/ 面授 到期開班 咨詢 報名
 

教學環(huán)境

查看全部照片  >

課程咨詢

我要咨詢
 

發(fā)表咨詢

 
有回復時短信通知我 發(fā)表咨詢
課程推薦

北京ACP培訓課程

需要參加ACP培訓課程的學員

北京PBA培訓課程

需要參加PBA培訓課程的學員

北京Power BI培訓課程

需要參加Power BI培訓課程的學員
更新時間:2023-06-12