分散運算、迅間結合!極速分析超大規模資料:人工智能建分散式異種混合機械學習技術
分散運算、迅間結合!極速分析超大規模資料:人工智能建分散式異種混合機械學習技術
針對巨量資料迅速進行分析,在預測未來情形時也有所幫助,現在對如此技術的期待日益提昇。早前 NEC 便推出了一項名為異種混合機械學習的技術,這項 AI 技術能夠高度精確地進行巨量資料分析。
透過「異種混合機械學習」技術,使資源可以有效運用,包含能源、水、食材的需求預測,為提昇物流管理效率的庫存需求預測,強化零售店舖管理的商品需求預測等情形,都能進行高精準度且大規模的預測。
另一方面,「異種混合機械學習」技術發展到現階段,在運用超大規模資料學習時,會受到電腦記憶體容量、CPU 核心數限制等性能上的侷限,是目前面臨的課題。
而為此,NEC 亦開始運用人工智慧(AI)發現混雜於巨量資料中複數規則的「異種混合機械學習」技術為基礎,開發出更為強化的「分散版異種混合機械學習」技術,這項技術能從超大規模資料中,以分散的運算系統產生預測模型。
所謂的「異種混合機械學習」,是藉由巨量資料的分析與預測,再加上星期幾、天氣如何等條件,自動發現其中「資料的狀況分類」與「變數的組合」的技術。
過往,資料的範例數量達到數千萬件以上、大於一台電腦搭載記憶體容量的超大規模資料,要將其進行分析時,會另外再將資料分割後進行分析。另外,即使搭載高性能 CPU(核心數增加等狀況)也有所極限,因此該如何改善大規模的資料分析效能,就是目前面臨的課題。
這次 NEC 所開發的技術「分散版異種混合機械學習」,是讓分散開來的不同電腦,各自進行異種混合機械學習的分析時,能夠同時將全體整合起來,只要增加電腦數量,龐大的資料也能不受限制的產生預測模型。舉例來說,大型金融機構的結餘預測,或是大型電信業者的客戶解約數量預測,像這樣有數千萬件相關事例的超大規模資料,也能運用這次的新技術來進行分析。
由新技術來進行實證實驗的結果,與舊技術相比,AI 的學習速度約提昇為原本的 110 倍,預測精準度也提昇了 17%。據了解,有關方面希望在 2018 年 3 月將技術實用化。
這次所開發的「分散版異種混合機械學習」,是在分散的運算系統上能夠執行異種混合機械學習,即使資料事例數量有數千萬件以上的超大規模資料,只需增加電腦的數量,就能夠不受限制地藉由本技術來產生預測模型。
新技術的特長如下:
- 開發出可適用於分散運算系統的演算法(手法)
開發出的分散版異種混合機械學習演算法,能同時使複數的電腦協作,從預測模型中學習。本演算法會將預測模型資訊(依據資料狀況分類與變數組合的資訊)與統合各個預測模型資訊後適用於獨創演算法的部份,由這兩者讓電腦們各自獨立學習後全體整合運用,產生高度精準的預測模型。 - 開發出可在分散運算基礎 Apache Spark 上運行的軟體
作為分散運算系統基礎之一的 Apache Spark,NEC 開發出可在此系統基礎上運行分散版異種混合機械學習演算法的軟體。
本軟體會將所有分析對象的資料,分散配置給不同電腦的記憶體,之後不需再次分配或進行讀取,就能運行分散版異種混合機械學習演算法。藉由這樣的方式,與分析對象資料的通信或存取硬碟次數,並不會因為電腦數量而隨之增加,更能發揮 Spark 的優勢,在分散的不同記憶體上發揮最大的運算效能,因而能夠高速運行演算法。