成功研發新技術!解決分散式儲存系統性能問題
隨著智能手機和感應器的普及,數據的儲存量和分析量持續迅速增長,帶來了新的商業價值。分散式儲存常用於儲存龐大數據,尤其在多重硬盤、固態硬盤和其他儲存機制組合成單一儲存。增加更多的伺服器可以提高儲存的容量和性能。此外,在多重伺服器中同時儲存複製的數據,可以提高數據的可靠性。然而現時的分散式儲存系統中,熱門的數據往往被集中存取,令系統表現與伺服器數目失去關連性。舉例說,在新聞網站上的一單熱門消息,往往會被網民不斷讀取,亦只會加重單一伺服器的負荷。就算是增加伺服器數量,也未能解決整體效能下降的問題。
最近 Fujitsu Laboratories(富士通研究所)便宣布成功開發新技術,為分散式儲存系統之熱門數據項目的密集存取情況,自動化解決存取時間緩延的問題。分散式儲存系統將多重伺服器集結於單一儲存器之中。增加伺服器數量可以提高儲存的容量和性能,使這種系統適用於日益增長的數據儲存量。此外,在多重伺服器中同步儲存複製的數據,可以攏高數據可靠度及存取性能。可是,當存取某一儲存數據急劇上升時,便會提高伺服器的負荷,可能會大大增加用戶存取的時間。
Fujitsu Laboratories 已經研發出一種新技術,可以即時檢測熱門數據項目,並自動增加其複製量以減輕伺服器負載。現時雖然可以人手操作,但會使存取時間變慢。這項技術應用於分散式對象儲存,並於互聯網上的存取測試中證明可以減輕約 70% 的集中程度,使存取時間的進展提高十倍或以上,同時此技術可穩定 ICT 系統操作中難以掌握的存取模式。
新開發的技術
Fujitsu Laboratories 開發的新技術名為「適應等級複製」(Adaptive Replication Degree),有關技術能自動偵測被集中讀取的數據,並複製至不同的伺服器,以分流系統存取。這項科技可以高速偵察及解決系統被過量讀取、減少存取時間緩延,確保系統穩定表現。甚至可以穩定 ICT 系統中難以預計的存取模式。「適應等級複製」不需要手動設置,亦能實現自動處理密集存取偵測,以及改變複製數據的數量。
有關「適應等級複製」(Adaptive Replication Degree)技術的詳細資料:
1. 以少量記憶體資源,迅速偵測急劇提升的熱門數據,致大量被過量讀取的數據項目
為了偵測特發的密集數據存取,廠方亦開發了一套只需佔用少量記憶體的「熱門估算機器」(Popularity-estimation engine)即能夠推算出數據被讀取的模式。在新開發的方法下,只需少量記憶體即可記錄指定資料的數據存取。當非指定的數據被讀取時,系統將會記錄為「較少讀取」;而當被讀取的次數不斷增加,系統就能準確地預測「熱門數據」所在。另一方面,如果用戶降低指定資料的數據存取基數,就會令系統增加計算最近讀取數據的次數,偵察當中更明顯的存取變化,判斷哪些為「熱門」數據。
2. 自動優化數據複製的數量
為了解決複製數據數量波動的問題,有關方面亦研發了一項新技術,並以周期性計算數據存取集中性,從而分析資料如何被大量讀取。當偵察到被大量讀取的數據項目,系統就會自動增加複製數據的數量。此項技術存在兩項優點—指出當前過度讀取的,以及預測下一次負荷的出現;另一方面,該技術亦能偵察數據周期內的存取集中性。當數據被讀取的次數增加,系統就會複製更多「副本」,在網絡數據流量激增時,提升被讀取的比例。
「熱門估算機器」(Popularity-estimation engine)
數據存取梯度分析機制(Access gradient analysis mechanism)
實驗室測試流程
這項新技術使用 64 台伺服器針對現實生活的娛樂項目進行測試,根據一位著名歌星在互聯網上的熱門話題故事所導致的龐大數據流量為背景。研究人員每小時對每台伺服器儲存頻率的變化進行檢測,並採用現有的方法,集中存取只包含相關數據的伺服器,發現存取的頻率增加約 2.3 倍。然而,採用新技術,存取頻率的增加率下降到以前水平的 70%,證明新技術有效減輕負載情況。
另一個測試使用了 16 台伺服器,從用戶的角度檢視存取所花的時間。下圖顯示所有數據被集中存取的平均時間和熱門數據被集中存取的平均時間。對比以往的方法,新技術使全部數據的存取時間在正常存取下變得平均。縱觀所有數據的平均存取時間,舊方法使集中存取的時間較正常存取的時間高約 4 倍,而新的技術只有約 1.2 倍。至於熱門數據方面,舊方法使存取時間增加約 15 倍,而新技術只花約 1.4 倍的時間。