數據量將比地球沙粒多 57 倍!不足 1% 數據被有效分析
大數據近年來成為各家企業的熱門話題,這是因為透過有效分析大數據,將能令你的企業快人一步,洞悉未來發展趨勢及客戶未來的選購行為。不過要投資於大數據相關方案,企業需要時間學習及大量資金進行部署,或許是這個原因,到現時為止全球只有 0.5% 的數據被用作分析,因此及早掌握大數據將令企業盡早佔先機。
其實大數據方案的背後是由一群數量不多的天才為結構及非結構資料進行關連性對比,加上針對不同行業的專業領域將心理學、人類行為學等加入到大數據方案背後的計算程序之中,透過多位專家的知識才能令預測的準確性大增。既然大數據擁有預知未來的能力,最近 EMC 便委託 IDC 進行了一項名為「Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East」(海量數據、更龐大的數據影子及遠東地區最大的數據增長)的研究,結果發現大量由人類及機器產生的數據令「數碼宇宙」創下史無前例的增長,IDC 卻估計世界上只有 0.5% 數據被用作分析。
全球設備如個人電腦和智能電話激增、互聯網連接在新興市場愈趨普及、機器如閉路電視攝錄機或智能電表等產生的數據急劇上升,把「數碼宇宙」的數據量在過去兩年間倍增至 2.8ZB 這個龐大的數字。IDC 預計「數碼宇宙」在 2020 年時將會達到 40ZB,這個數量遠高於過往所預測的 14%。
純粹就數據量而言,40ZB 數據相等於:
– 700,500,000,000,000,000,000 沙粒鋪墊在全球所有的沙灘上。即是 40 ZB 等於全球所有沙灘的沙粒總數的 57 倍。
– 如果我們能將所有 40ZB 的數據儲存於今日的藍光碟上,把所有光碟的重量(不帶封套或光碟盒)加起來,相等於 424 艘尼米茲級核動力航空母艦。
– 在 2020 年,40 ZB 相等於世界上每個人均擁有 5,247 GB 數據。
今年研究是 IDC 首次能夠捕捉「數碼宇宙」的資料來源、或首次被記錄或使用的位置,揭示一些正在發生的重大轉變。踏入第六個年頭,旨量度及預測這個年度所製造及複製數碼資料的研究,包括有關「海量數據鴻溝」的發現,這鴻溝存在於隱藏著重大價值的數據的數量與其價值真正被摘取的數據的數量之間;以及數據保護等級對真正被傳遞;以及全球數據地域分佈的重大意義。
研究重點:
– 「數碼宇宙」的迅速增長 : IDC 預料「數碼宇宙」於 2020 年前將增至 40ZB,這個數量遠高於過往的預測。
– 「數碼宇宙」由今年開始至 2020 年,將每兩年翻一倍。
– 到 2020 年,世界上每位成年男女及小童均擁有 5,247GB 數據。
– 「數碼宇宙」膨脹主因是機器產生的數據增長,上升幅度由 2005 年僅佔 11%,增至 2020 年超過 40%。
另外報告之中亦提及現時有大量有用數據正在流失,「海量數據」提供的機遇體現於從大量、未被開發的數據之中摘取價值。不過,大多數新數據很大程度都是未被標籤並以檔案為基礎的非結構性數據,我們對這些數據所知甚少。至於在剛剛過去的 2012 年,報告稱假如當中「數碼宇宙」的 23%(643 exabytes)數據若被標籤及被分析的話,將會對海量數據十分有用。但是,目前只有 3% 有潛在價值的數據被標籤,而有被分析的數據更少。
至於未來的數據增長方面,報告之中指出有用數據的數量會隨著「數碼宇宙」的增長而遞增。到了 2020年,「數碼宇宙」中 33% 的數據(13,000+ exabytes)若被有效標籤及分析,將可擁有海量數據的價值。但可怕的是到現時為止,大部分數碼宇宙未受保護,而且應該獲得保護的資訊增長比數碼宇宙的增長為快。
回顧當年(2010 年)「數碼宇宙」中有不到三分之一的資訊獲得保護,但這個比率預計於 2020 年有望上升至 40%。而於剛過去的 2012 年,「數碼宇宙」中有大約 35% 的資訊需要某程度上的數據保護,少於 20% 的數碼宇宙真正獲得此等保護。當然不同地區這個比率企有差異,事關受保護程度往往因地而異,新興市場所受的保護程度相對較低。
提到不同地區,其實近幾年來地理上的角色逆轉已迫在眉睫,早年「數碼宇宙」現象只出現於已發展國家,但隨著新興市場的人口增長,其「數碼宇宙」的身影愈趨明顯。根據 ID 的報告顯示,新興市場於 2010 年僅佔「數碼宇宙」的 23%,但在 2012 年已升至 36%,而 IDC 更預測,在 2020 年前,62% 的「數碼宇宙」將歸屬新興市場。現時「數碼宇宙」的環球市場分佈為:美國 – 32%,西歐 – 19%,中國 – 13%,印度 – 4%,其他國家 – 32%,而在 2020 年前,預計單是中國已產生佔全球 22% 的數據。
其他重要結果:
1. 雲端運算將於海量數據管理中扮演更重要的角色,預計全球伺服器的數量將上升十倍,企業數據中心直接管理的資訊將上升十四倍。
2. 儲存於雲端的數據種類將於未來幾年面對重大的變革。於 2020 年前,IDC 預測 46.7% 儲存在雲端的數據將會與娛樂有關,不再是企業數據。監控攝錄機數據、嵌入式及醫療數據,以及由電腦、電話、及消費電子器材製造的資訊將佔餘下部分。
3. 儲存於「數碼宇宙」中有關個人用戶的資訊超過他們自己製造的數據。
4. 西歐現正投放最多資金來管理「數碼宇宙」,每 GB 耗費 $2.49 美元。美國排第二,每 GB 投資 $1.77 美元,中國和印度分別以每 GB 投資 $1.31 和 $0.87 緊隨於後。
5. 由於「數碼宇宙」的基建更緊密連接,資訊已不會亦不需只存放於所使用的地區。在 2020 年前,IDC 預計接近 40% 數據將會「觸及」雲端運算(私有雲及公共雲),意味著每個位元組的產生和使用之間的某些過程將於雲端中被儲存或處理。
1 Response
[…] 問:現時企業面對/處理海量數據時有甚麼常見的難題? 答:其實企業正面對的難題大致上可分為兩方面。首先是數據量的增長速度過高,早前 IDC 的調查便按現時數據增長速度作估算,指出當到了 2020 時,全球數據量將達到 40ZB,可想而知現時每年的增長數字亦相當可觀;而面對 40ZB 這個增長速度,即使企業有心針對儲存架構作大量投資,想必亦不能應付數據增長的速度;所以企業應考慮一些能夠提供 Sclae-Out 的方案以便隨時在不影響服務的情況下增加儲存架構,這樣才有望能應付高速數據量增長的需要。 […]