炒作成風:Data Lake 價值真有這麼大嗎?
Data Lake(數據湖泊) 價值近日不斷升溫,很多廠商都在力推這種大數據下產生的概念;然而廠商對於如何定義 Data Lake 仍未有一致的看法;假如你向廠商問及應如何從云云數據之中構成 Data Lake 又或者如何從中獲取價值?很多廠商都會支吾以對。早前 Gartner 便針對此問題發表了看法。
Gartner 研究總監 Nick Heudecker 表示:「Data Lake 被世人認為是一個能用於分析各種來源、原始格式數據的企業數據管理平台。其想法很簡單:你將數據以原始格式遷移到 Data Lake 中,而不是放置在專用的數據存儲中。這就能避免了接收數據的成本。一旦數據被放進 Data Lake 之中,企業中的所有人都可以使用這些數據進行分析。」
雖然 Data Lake 的確有其實際價值,不過重點在於使用的人是否懂得處理;就筆者理解,很多企業對於數據處理以及分析方面均只懂得採用,然而一旦談及如何達致節能,又或者如何對數據作一致性及針對元數據作整理,相信很多企業都會不懂回答。
Data Lake 的重點是保存不同的數據,但卻同時忽略了如何使用數據以及為什麼要使用數據、監管數據、定義數據和確保數據安全。Data Lake 概念的出現主要是希望解決一舊一新兩大問題。老問題是,信息孤島。你可以將不同來源都集中到一個未經管理的 Data Lake 之中,而不是保持數十種獨立管理的數據集合。從理論上講,整合的結果是加強信息運用及共享,同時降低伺服器及整體成本。
而新問題則是涉及到大數據。大數據項目要求大量各種數據。這些數據可能是完全沒有關連,以至於我們不知道這些數據究竟是什麼,以及什麼時候收到的,就把它歸類到某種類似數據倉庫的結構化數據,或者關系型數據庫管理系統以便未來使用。
其實採用 Data Lake 來解決這兩個問題無疑在短期內是有利於 IT 的,因為 IT 不再需要花時間去了解如何使用數據 —— 數據只是被傾倒 Data Lake 之中。不過,從這些數據中獲得價值,仍然是企業用戶的責任。當然,可以運用或者添加相關技術來做到這一點,但是如果沒有至少某種數據的結集整理,那 Data Lake 最終將會成為多個缺乏相互連接的數據池(Data Pool)或者集中在一個地方的多個信息孤島的集合體。
因此,Data Lake 存在著重大風險。最重要的一點,是你永遠無法確定數據質量或者利用其他已經發現價值的分析師或者用戶在使用 Data Lake 之中相同數據中的經驗發現。從定義上看,Data Lake 可以接收任何數據,不受監督或管理。沒有描述性的元數據,和維護它的機制,數據湖泊會轉變成數據沼澤。如果沒有元數據,所有對數據的使用都意味著從零開始對數據進行分析。
另外一個風險是安全性和檢視權限。數據可以在不受內容監管的情況下被放到數據湖泊。很多數據湖泊中數據的使用意味著其隱私和法規要求很可能使其暴露於風險之下。數據湖泊核心技術的安全能力仍然處於早期萌芽階段。如果交給非 IT 人員的話,這些問題將不會得到解決。
最後,性能方面的因素也不容忽視。數據湖泊相關的工具和數據接口的性能無法與專用存儲系統相比,因此 Gartner 建議企業機構應專注於上游應用和數據存儲庫的語義一致性和性能,而不是數據湖泊中的信息整合;數據湖泊的根本問題是,它對用戶做了特定的假設。它假設用戶了解數據獲取的背景,知道如何結合數據和如何協調不同數據來源。
雖然這些假設對於數據科學家來說的確是真實的,但是大多數企業用戶缺乏高水平或缺乏來自營運信息監管方面的技術。開發或者購買這些技術,或者從個人角度獲取這種技術,要不就是浪費時間和金錢,要不就是完全不可能的。
從數據中總是會發現價值的,但你的企業不得不解決的問題是——我們允許甚至是鼓勵對各種孤島或者數據湖泊中的信息進行一次性、獨立的分析嗎?或者我們會試圖維持我們開發的創造價值技巧嗎?如果你的選擇是前者,那麼很可能數據湖泊就是具有吸引力的。如果你的決定趨向於後者,那麼超越數據湖泊理念,制定一種更強大的邏輯數據倉庫戰略就可能會更有意義。