虛擬化之戀:你食得住 Hadoop 嗎?
高速增長的數據量和日益增加的競爭壓力,令越來越多企業開始尋找這些數據的價值。傳統的BI系統、數據倉庫和數據庫系統都不能很好地處理這些數據。原因包括:
1. 數據量太大,傳統數據庫不能有效存儲存及維持它的性能;
2.新產生的數據往往是非結構性的,而傳統方式都是為處理結構性的數據而設計;
3.傳統數據處理所需的硬件往往十分昂貴,隨著數據量增加而繼續使用傳統方式處理的成本讓很多企業不太可能承受。為此,經常受互聯網界推崇的Apache Hadoop吸引了企業的目光,大量企業都在思考如何把Hadoop這個美麗的新娘娶回自己的Data Center 之中。
不過,傳統的企業Data Center要想娶回這個美麗的新娘可不是那麼簡單。Hadoop的部署、運行維護都需要很多”Geeker”才能完全掌控,完全超出了傳統企業Data Center的技術能力;另外,Hadoop 需要很多專門硬件,而且確保安全和服務等級也是一個挑戰。如何能享受它的溫柔又不帶來其他的後患就成為了企業選擇Hadoop的挑戰。
從伺服器虛擬化到整個Data Center虛擬化,今天我們已經充分感受到虛擬化這個小子的力量!如果虛擬化能和Hadoop來場戀愛,企業的Data Center選擇了Hadoop,是不是能夠將束縛一掃而光呢?答案是肯定的。虛擬化能讓Hadoop和底層硬件分離,真正步入雲端化,從而輕鬆快速部署、可用性高、資源彈性和安全多租戶的雲端殿堂,企業的Data Center想把Big Data分析和有效運用的美夢才能真正成為現實。讓我們來揭開虛擬化這小子的戀愛秘訣吧,從而令大家更好地利用Hadoop來應對Big Data的挑戰。
1.快速部署Hadoop:我們已經熟悉虛擬化,包括虛擬機、ScreenCapture、資源動態分配等,這些特性都能解決大量應用部署的難題,Hadoop當然也不在話下,可以大幅度提高Hadoop的部署速度。同時,可以按需快速啟動和關閉Hadoop,從而高效率利用資源,比如VMware發佈的Serengeti開源項目,便正正協助了虛擬化和Hadoop之戀的過程;
2.為Hadoop提供可用性高和容錯能力:儘管Hadoop通過數據分佈複製提高系統可靠性,但仍然有很多部件存在着並在同一點發生故障,這種結構在互聯網企業中可能不是問題,但對傳統Data Center來說絕對是個挑戰。例如:Namenode和jobtracker以及某些支持Module都存在單點故障,通過虛擬小子的平台高可用可以為這些Module輕鬆提供一定的可靠性,讓Hadoop走進企業Data Center後,您仍然能高枕無憂;
3.擁抱Hadoop的高效Data Center:通過虛擬小子動態調度能力,可以將各種不同的載入模式混合在企業Data Center雲端平台之中,Hadoop當然亦可以與其他軟件載入一起同床共枕,通過嚴格的安全隔離,確保不會發生任何衝突。甚至你可以在同一雲端平台執行不同版本的Hadoop,相互之間和平共處,資源共享,在確保可用性、性能的前題下,降低了傳統部署Hadoop的整體成本,輕鬆實現高效Data Center的目標;
4.大幅提升Hadoop環境資源使用率:將Hadoop和其他負載,部署在同一主機上,通過控制資源策略來實現資源的高效分配和轉移,實現Hadoop在雲端的完美漫步,是虛擬化小子贏得這場戀愛的關鍵一環;
5.Hadoop雲端多租戶:通過虛擬化的隔離能力,Hadoop確保本身多租戶的完美體驗,不同的租戶可以將Hadoop和其他負載混合運行在雲端資源池,多租戶順利部署;
6.安全隔離:虛擬化的安全隔離能力,讓不同組織、用戶的Hadoop可以順利運行,輕鬆達致數據和環境完全隔離的目標,同時更可共享底層的硬件資源;
7.易於維護和遷移:虛擬化讓Hadoop易於複製、遷移,方便了和Data Center不同的集群之間、從一個Data Center轉到另一個Data Center的跨雲端平台和遷移等情況,Hadoop再也不是一個行動不便的娘娘娘。
虛擬化順利贏得了Hadoop的芳心,不但沒有令Hadoop變成傳統企業Data Center的負累, 相反Hadoop在虛擬平台上的魅力卻不減,因為大量的事實已經印證了虛擬化的Hadoop運行性能依然可以相比於物理環境,同時還可大量節省成本。Hadoop和虛擬化門當戶對,他們的戀愛值得我們共同期待和祝福:祝Hadoop和虛擬化白頭到老,永結同心,百年好合!