當前位置: 首頁 / 聚焦頭條 / 正文
【資源】大數據-Azkaban教程:視頻+源碼+筆記

2019-12-05

大數據教程 大數據資源 北京大數據培訓

2019最新小白速成調度框架azkaban【好程序員大數據】-封面圖

好程序員大數據之調度框架azkaban

為了方便大家更加便捷的學習大數據,好程序員今天為大家準備了大數據教程中的Azkaban調度器使用方法,本教程配有全套視頻+源碼+筆記,內容豐富、講解透徹,再配上源碼,實操性很強!想學習的小伙伴趕快抓緊下載!

關于Azkaban你了解多少呢?

1、Azkaban是什么?

在介紹Azkaban之前,我們先來看一下現有的兩個工作流任務調度系統。知名度比較高的應該是Apache Oozie,但是其配置工作流的過程是編寫大量的XML配置,而且代碼復雜度比較高,不易于二次開發。另外一個應用也比較廣泛的調度系統是Airflow,但是其開發語言是Python。

如果團隊中將Java作為主流開發語言的話,那么Azkaban可以作為首選,這是因為:

  • 基于Java開發,代碼結構清晰,易于二次開發;
  • 提供功能清晰,簡單易用的Web UI界面;
  • 提供job配置文件快速建立任務和任務之間的依賴關系;
  • 提供模塊化和可插拔的插件機制,原生支持command、Java、Hive、Pig、Hadoop

Azkaban是由Linkedin公司推出的一個批量工作流任務調度器,主要用于在一個工作流內以一個特定的順序運行一組工作和流程,它的配置是通過簡單的key:value對的方式,通過配置中的dependencies 來設置依賴關系,這個依賴關系必須是無環的,否則會被視為無效的工作流。

Azkaban使用job配置文件建立任務之間的依賴關系,并提供一個易于使用的web用戶界面維護和跟蹤你的工作流。

2、Azkaban的適用場景

實際項目中經常有這些場景:

每天有一個大任務,這個大任務可以分成A、B、C、D四個小任務,A、B任務之間沒有依賴關系,C任務依賴A、B任務的結果,D任務依賴C任務的結果。

一般的做法是,開兩個終端同時執行A,B,兩個都執行完了再執行C,最后再執行D。這樣的話,整個的執行過程都需要人工參加,并且得盯著各任務的進度。但是我們的很多任務都是在深更半夜執行的,通過寫腳本設置crontab執行。

其實,整個過程類似于一個有向無環圖(DAG)。每個子任務相當于大任務中的一個流,任務的起點可以從沒有度的節點開始執行,任何沒有通路的節點之間可以同時執行,比如上述的A,B。

總結起來的話,我們需要的就是一個工作流的調度器,而Azkaban就是能解決上述問題的一個調度器。

3、Azkaban架構

Azkaban在LinkedIn上實施,以解決Hadoop作業依賴問題。我們有工作需要按順序運行,從ETL工作到數據分析產品。最初是單一服務器解決方案,隨著多年來Hadoop用戶數量的增加,Azkaban 已經發展成為一個更強大的解決方案。

Azkaban由三個關鍵組件構成:關系型數據庫(MySQL)、AzkabanWebServer、AzkabanExecutorServer(如下圖)

azkaban2 

4、好程序員大數據之Azkaban

課程價值:

學習完本課程,能掌握調度概念、調度流程、項目調度和azkaban定時調度等。

本課程適合人群:

本課程視頻適合所有了解或者系統學習過hadoop生態圈相關組件的學生。若對大數據沒有相關了解,能聽懂概念,很多操作不能關聯。

5、Azkaban課程學習路線圖

01 azkaban的概覽

02 azkaban和oozie的區別

03 azkaban-3.57.0源碼編譯

04 solo Server的安裝部署

05 solo server測試使用

06 azkaban的command type案例

07 azkaban的shell案例

08 azkban的mapreduce案例

09 azkaban的依賴案例

10 azakabab的定時任務案例

11 azkaban的元數據庫初始化

12 azkaban的webserver的安裝

13 azkaban的executor的安裝

14 azkaban的多executor的測試

6、免費資源領取方式:

關注微信公眾號:好程序員,回復“DT7”獲取好程序員大數據教程之Azkaban使用方法(全套視頻+源碼+筆記+配置軟件) 

掃碼

好程序員開班動態

More+
  • HTML5大前端 <高端班>

    開班時間:2020-02-17(北京)

    預約報名

    開班時間:2020-03-02(深圳)

    預約報名
  • 大數據+人工智能 <好程序員嚴選班>

    開班時間:2019-12-23(北京)

    開班盛況
  • 大數據+人工智能 <好程序員班>

    開班時間:2020-02-24(杭州)

    預約報名

    開班時間:2020-02-17(北京)

    預約報名
  • JavaEE分布式開發 <高端班>

    開班時間:2020-03-09(北京)

    預約報名
  • Python全棧+人工智能 <高端班>

    開班時間:2019-07-22(北京)

    開班盛況
  • 云計算開發 <高端班>

    開班時間:2020-02-24(北京)

    預約報名
在線咨詢
免費試聽
入學教程
立即報名

Copyright 2007-2019 北京千鋒互聯科技有限公司 .All Right 京ICP備12003911號-5 京公安網11010802011455號

日日看福利,日日看在线视频