談海量數據:大數據下的 Data pipeline 應如何制定?
談海量數據:大數據下的 Data pipeline 應如何制定?
4. 系統/機器所產生出來的資料
例如是:來自於活動日誌(Event Log)、伺服器產生的資料、應用產生出來的日誌(Application Log)等相關資料。
5. 多媒體資料
例如是:圖片、影片、Infographics、Podcasts、串流的資料等相關資料。
6. 來自於感應器的資料
例如是:來自於醫療設備、地理追蹤系統、監控系統、智能裝置、IoT 設備的資料。
製作流程圖表 (Data pipeline)
在我們以往的教學之中,大家都會看到很多流程圖表,而面對數據管理工作上,這些圖表對於幫助全公司制定政策及了解數據流程尤其重要,由最低層小職員到零技術背景的各部門管理者以致是最頂層的決策者,通過一張簡單的圖表便可大約知道數據是如何處理的。
當然要製作出一張讓人容易理解的 Data pipeline 絕對是一項艱鉅的任務,而這方面我們今次並不會涉及,為令大家更容易了解到 Data pipeline 的相關最佳實戰,附上 QRCODE 供大家參考。
以往我們製作這些圖表時,很多時出來的樣子都差不多,例如最開首會是防火牆,然後在防火牆後便會是一些關聯式數據庫 SQL、Shell scripts 諸如此類,不過今後此情況將不再,原因有很多,篇幅所限我們列舉出一些常見的問題:
1. 雲端服務令人頭痛
現時很多服務都是雲端服務,例如我採用的是一些 SaaS,而軟件不再是 on premise 時,管理者自然亦不能以最高管理權限的身份直接取得這些 SaaS 軟件所產生出來的數據,而是需依賴通過 API 而開發出一些管道去進行,這方面我們需要考慮的事情有很多,例如不同廠商的 API 有可能經常更新,當你只有數名 IT 人員的情況下要即時應對絕非易事!另外可能大家都有遇到過,就是有些廠商的 API 會有速率限制的問題,遇到這些 API 真的會令人感到頭痛不已,尤其是現今 SaaS 軟件愈來愈多,每家廠商的要求、限制不一。
2. 數據量比以往更大、需要考慮更多
我們在文初都有提到,現時很多公司都會向客戶提供一些應用,讓用户直接完成交易等。面對這些與客戶互動所產生出來的數據,與我們以往只是公司內部產生出來的數據量將會是完全不同!事關數據量將會大得多!而以往傳統的 Data pipeline 設計將不能有效應付;最明顯的例子就是,我們不會再每次都將整個數據集複製,反而會採用 CDC(Change data capture)的方式,並針對有改變數據作複製。
待續…
瀏覽相關文章
淺談:數據大量產生的管理哲學(1)
談海量數據:大數據下的 Data pipeline 應如何制定?
談海量數據:大數據下的 Data pipeline 應如何制定(1)?
談海量數據:淺談外判 Data pipeline 要注意的事項