大數據潛力無限!全球只得 0.5% 被分析、受保護數據低於兩成
無論是結構或非結構化數據,只要我們懂得使用的話,其產生的價值絕對是難以估算。儘管這些數據擁有無可估算的價值,但由於企業欠缺有效的方案及專才將這些大數據進行分析,因此到目前為止全球只得極少大數據被有效運用及發掘。根據 IDC 最近的報告估計,世界上只有 0.5% 數據被用作分析。
近日一份由 EMC 委託 IDC 進行的「Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East」(海量數據、更龐大的數據影子及遠東地區最大的數據增長)的研究顯示,即使這些可用的數據日以繼夜地增長,全球海量數據的潛在價值只有極少部份被發掘。
全球設備如個人電腦和智能電話激增、互聯網連接在新興市場愈趨普及、機器如閉路電視攝錄機或智能電表等產生的數據急劇上升,因此令 2012 年全球共製造及複製 2.8ZB(2.8 萬億 GB)數據,並預計到了 2020 年,將達到 40ZB(40 萬億 GB),較過往的預測(14%)多出 5 ZB,比 2010 年初增長達 50 倍,可見未來企業將更重視大數據的價值;在追求大數據所帶來的優勢同時,報告亦針對數據安全性進行了一個初步的調查,結果顯示需要保護的數據量增長速度比「數碼宇宙」增長更快,不過保護等級並未能跟上步伐。
純粹就數據量而言,40ZB 數據相等於:
– 700,500,000,000,000,000,000 沙粒鋪墊在全球所有的沙灘上。即是 40 ZB 等於全球所有沙灘的沙粒總數的 57 倍。
– 如果我們能將所有 40ZB 的數據儲存於今日的藍光碟上,把所有光碟的重量(不帶封套或光碟盒)加起來,相等於 424 艘尼米茲級核動力航空母艦。
– 在 2020 年,40 ZB 相等於世界上每個人均擁有 5,247 GB 數據。
大部分數碼宇宙未受保護:應該獲得保護的資訊增長比數碼宇宙的增長為快
– 於 2010 年,「數碼宇宙」中有不到三分之一的資訊獲得保護,但這個比率預計於 2020 年上升至 40%。
– 於 2012 年,「數碼宇宙」中有大約 35% 的資訊需要某程度上的數據保護,少於 20% 的數碼宇宙真正獲得此等保護。
– 受保護程度因地而異,新興市場所受的保護程度相對較低。
– 更高層次的保安威脅、保安技術的落差,和缺乏可給依從的最佳保安實務,將繼續對消費者和企業構成挑戰。
至於那些國家的企業製造最多數據?報告指出在可見的將來,數據將主要由機器產生的,而這亦是全球數據增長的主要成因,預計到 2020 年將劇增 15 倍,並且於 2020 年前,新興市場將取代已發展國家成為全球數據的主要製造者。
地理上的角色逆轉近在眉睫:早年「數碼宇宙」現象只出現於已發展國家,但隨著新興市場的人口增長,其「數碼宇宙」的身影愈趨明顯。
– 新興市場於 2010 年僅佔「數碼宇宙」的 23%,在 2012 年已升至 36%。
– IDC 預測,在 2020 年前,62% 的「數碼宇宙」將歸屬新興市場。
– 現時「數碼宇宙」的環球市場分佈為:美國 – 32%,西歐 – 19%,中國 – 13%,印度 – 4%,其他國家 – 32%。
– 在 2020 年前,預計單是中國已產生佔全球 22% 的數據。
上述都有提到,企業將愈來愈重視並發現大數據所帶來的潛在利潤,因此有關「數碼宇宙」基建如硬件、軟件、服務、電信及員工等的投資,預料在 2012 年至 2020 年間將上升 40%;同時報告特別指出,針對儲存管理、保安、海量數據及雲端運算的增長將較快。
大量有用數據正在流失:「海量數據」提供的機遇體現於從大量、未被開發的數據之中摘取價值。不過,大多數新數據很大程度都是未被標籤並以檔案為基礎的非結構性數據,我們對這些數據所知甚少。
– 在 2012 年,「數碼宇宙」的 23%(643 exabytes)數據若被標籤及被分析的話,將會對海量數據十分有用。但是,目前只有 3% 有潛在價值的數據被標籤,而有被分析的數據更少。
– 有用數據的數量會隨著「數碼宇宙」的增長而遞增。到了 2020 年,「數碼宇宙」中 33% 的數據(13,000+ exabytes)若被有效標籤及分析,將可擁有海量數據的價值。
其他重點及報告結果:
– 「數碼宇宙」的迅速增長:IDC 預料「數碼宇宙」於 2020 年前將增至 40ZB,這個數量遠高於過往的預測。
– 「數碼宇宙」由今年開始至 2020 年,將每兩年翻一倍。
– 到 2020 年,世界上每位成年男女及小童均擁有 5,247GB 數據。
– 「數碼宇宙」膨脹主因是機器產生的數據增長,上升幅度由 2005 年僅佔 11%,增至 2020 年超過 40%。
– 雲端運算將於海量數據管理中扮演更重要的角色,預計全球伺服器的數量將上升十倍,企業數據中心直接管理的資訊將上升十四倍。
– 儲存於雲端的數據種類將於未來幾年面對重大的變革。於 2020 年前,IDC 預測 46.7% 儲存在雲端的數據將會與娛樂有關,不再是企業數據。監控攝錄機數據、嵌入式及醫療數據,以及由電腦、電話、及消費電子器材製造的資訊將佔餘下部分。
– 儲存於「數碼宇宙」中有關個人用戶的資訊超過他們自己製造的數據。
– 西歐現正投放最多資金來管理「數碼宇宙」,每 GB 耗費 $2.49 美元。美國排第二,每 GB 投資 $1.77 美元,中國和印度分別以每 GB 投資 $1.31 和 $0.87 緊隨於後。
– 由於「數碼宇宙」的基建更緊密連接,資訊已不會亦不需只存放於所使用的地區。在 2020 年前,IDC 預計接近 40% 數據將會「觸及」雲端運算(私有雲及公共雲),意味著每個位元組的產生和使用之間的某些過程將於雲端中被儲存或處理。
2 Responses
[…] 互聯網已成為很多人日常生活的一部份,互聯網的出現令人與人之間的交流更頻繁,拉近人與人之間的距離。不過互聯網普及後,為企業帶來的不只是數據管理上的挑戰,更由於海量數據(大數據)愈來愈多,如何有效儲存、提升儲存方案的性能、管理數據等,都是每一位 IT 人必須面對的事情。 […]
[…] 很多廠商、傳媒都有提到海量數據的重要性,以及如何透過不同方案去有效分析海量數據,從而享受海量數據所帶來的價值。但在此之前,周邊的方案配合亦十分重要,其中負責確保數據完整性的備份存檔工作更是不能缺少。 […]