Hadoop 五大錯誤:部署前先停一停、諗一諗
Apache Hadoop助企業對付他們最艱難的挑戰,利用大量資料創造價值。用戶普遍部署Hadoop方案,是因為它能夠幫助企業從各種不同類型的Big Data中獲得價值。獨立分析機構Forrester Research公司發佈的《Forrester:Big Data 的 Hadoop解決方案》報告顯示,Hadoop的開放源碼架構逐漸深入企業環境,它的發展趨勢已無法阻擋。全新獨特的資料管理方案説明企業正在改變 Big Data存儲、處理、分析及共用的方式。
不斷發展的Hadoop技術
在部署Hadoop技術時提出不切實際的預期或錯誤選擇技術,將導致浪費時間,費用上漲,業績稍微下降。
Hadoop五大錯誤
了解Hadoop技術能力與限制,並制定計畫,將在未來充分發揮Hadoop技術能力。了解Hadoop技術的真相,並避開以下常見錯誤,將幫助您順利部署Hadoop.
錯誤一:Hadoop可替代資料倉庫
Hadoop框架不是完整的資料或分析解決方案,也不是用作或替代資料倉庫的框架或平台。就這問題,依靠Hadoop技術提高開發成本效益的Big Data解決方案,與其它資料庫共用資訊,使其成為資料倉庫的完美組合。依靠Hadoop技術,企業將能夠通過新的途徑充分利用各種類型的大量資料。
錯誤二:Hadoop技術部署複雜
Hadoop發展看來勢不可擋,《Forrester:Big Data Hadoop解決方案》(2014年第一季度)報告稱,Hadoop框架是大型企業必備的資料平台,是未來任何靈活資料管理平台中最重要的組成部分。為充分利用Hadoop的技術優勢,下一代資料倉庫將與Hadoop技術更深入整合。但是管理規模更大,結構更複雜的資料集,需花大量人手去研究和管理。
錯誤三:Hadoop技術是免費的
Hadoop的確是一套開放源碼產品,所有使用者均可免費下載。但使用該技術卻並非免費,甚至需要更高的成本。高效率運用Hadoop技術需要接受過培訓的專業人士,而長期存儲資料亦需要昂貴成本。考慮分析多個因素,Hadoop技術的成本實際上要高於資料倉庫。除開放源碼技術外,廠商還售賣支援各種功能的專用應用程式,支援並發展Hadoop使用範圍,為企業提供更多幫助。
錯誤四:Hadoop解決方案是一款資料整合工具
Hadoop實際上是專為特定資料類型及Workload設計的分散式檔案系統。但該技術缺乏資料整合能力。如果Hadoop解決方案未能與大型資料管理生態系統結合使用,它將會成為另一個使資訊隔離的孤島。一旦在資料倉庫環境下部署Hadoop技術,用戶即可查詢資料倉庫及Hadoop中的資訊。
錯誤五:Hadoop是單一的開放源碼產品
Hadoop是產品庫及技術庫,包括Hadoop分散式檔案系統、MapReduce、Pig、Hive、Falcon、Knox等。多家廠商開發Hadoop產品,並加入具不同特性的功能。例如,Hortonworks能幫助企業採集、處理並共用任意格式、任意規模的資料。並不是所有Hadoop產品都是開放源碼的。Forrester報告稱,對Hadoop產品的需求使廠商面對競爭殘酷的市場,他們需要抓住一切機會銷售他們特有的Hadoop解決方案。
釋放Hadoop技術的全部潛能
Hadoop為大型資料集存儲及處理提供可靠的解決方案,説明企業克服了以往資料使用成本高、資料結構複雜,並有效利用各種類型的大量資料。雖然Hadoop技術用途廣、優勢多,但它卻無法取代資料倉庫或資料整合工具。而通過與其它資料或分析解決方案整合,反而能夠提升Hadoop技術的價值。