前所未見的儲存方案:一機雙控制器、無共享架構確保無單點故障
前所未見的儲存方案:一機雙控制器、無共享架構確保無單點故障
提到儲存系統,坊間很多方案都會提供所謂的 HA(高可用性)及 active-active 容錯轉移,不過這些方案是否可稱得上真正的 HA?這點的確值得深思!舉個例子,有些方案可能只提供了部分備援,例如僅包含一個共用資料儲存子系統,但當這個重要的單元故障時,整個裝置就會跟著離線。
針對此情況,近期便有台灣廠商研發出真正的 HA 存儲陣列方案,這種方案的設計十分特別,是筆者接觸存儲方案多年來首次看見的做法。
這方案是由捷鼎國際 AccelStor 推出的NeoSapphire 3706-ES1。首先它本身在設計上採用無共享架構 (shared-nothing architecture),與傳統存儲採用單一控制器的存儲陣列比較,其好處是可將一個存儲陣列一分為二,而且各自均擁有獨立的處理器、記憶體 SSD 及控制器;亦由於此一特別的設計,因此即使出現重大問題時,存儲陣列亦可保持正常服務,並確保無單點故障 (NSPF),避免停機中斷服務。
無共享架構,簡單來說可理解成一台存儲陣列獨立分開兩部份(雙節點設計),並各自擁有獨立的虛理器、記憶體及 SSD。
而從上圖可見,存儲陣列可一分為二,分別是 Node A 及 Node B;當系統運行時,進入系統的每一個檔案將會自動在兩個節點同步儲存,從而提供雙重保障;而在同步的過程之中,將需要搭配低延遲 InfiniBand 將兩個節點連接起來,這樣做的好處是可以確保即使在大量隨機 I/O 工作負載下,兩個節點之間亦能達成高效率資料交換。
通過採用低延遲 InfiniBand 將兩個節點連接起來,從而確保儲存效率。
實時將資料同步儲存在兩個節點之中,進一步保障備份的安全。
與此同時,方案本身亦提供了一個名為(Heartbeat)的功能,此功能可針對兩個節點之間的 GbE 以及 InfiniBand 傳回實時狀態,讓兩個節點之間能更易辨識另一方實時傳輸情況。當其中一個節點又或者是存儲、控制器、PSU 等出現問題時,節點將會進入存取禁止模式,並由 Heartbeat 辨識問題,同時系統亦會通知管理員。
接著便是問題修復後的系統自動回復。當系統需要故障復原時,NeoSapphire 3706-ES1 能通過捷鼎國際的獨家軟體和 InfiniBand 互連連結的 RDMA (遠端直接記憶體存取),在儲存節點間即時同步資料,縮短復原時間目標 (RTO);而與此同時 Heartbeats 亦可辨識到問題已解決,並同時恢復節點運行。
從前,快閃記憶體產業只能在效能或可靠度之間擇其一而無法兼具,然而這種想法應該改變。今次介紹的儲存陣列設計以快閃記憶體為基礎,採用軟體定義架構,而且配備雙控制器等獨特設計,相信將會是未來全快閃儲存陣列的發展趨勢!