本周,IBM聲稱,其神經(jīng)計算機(jī)系統(tǒng)達(dá)到了每秒120萬幀的訓(xùn)練時間,創(chuàng)下了最新記錄。IBM在AI模型訓(xùn)練上實現(xiàn)了大突破,可與最先進(jìn)的技術(shù)相匹敵
本周,IBM聲稱,其神經(jīng)計算機(jī)系統(tǒng)達(dá)到了每秒120萬幀的訓(xùn)練時間,創(chuàng)下了最新記錄。IBM在AI模型訓(xùn)練上實現(xiàn)了大突破,可與最先進(jìn)的技術(shù)相匹敵。網(wǎng)友對此表示簡直不敢相信!
在今年年初發(fā)表的一篇論文論文中,IBM詳細(xì)介紹了神經(jīng)計算機(jī)。這是一種可重新配置的并行處理系統(tǒng),旨在研究和開發(fā)新興的AI算法和計算神經(jīng)科學(xué)。
就在本周,該公司在神經(jīng)計算機(jī)上演示了第一個應(yīng)用程序:一種深度的神經(jīng)進(jìn)化系統(tǒng)。該系統(tǒng)將Atari 2600的硬件實現(xiàn),圖像預(yù)處理和AI算法結(jié)合在優(yōu)化的流水線中。
實驗報告得出的結(jié)果可與最先進(jìn)的技術(shù)相匹敵,但更重要的是,IBM聲稱該系統(tǒng)達(dá)到了每秒120萬幀的訓(xùn)練時間,創(chuàng)下了最新記錄。
網(wǎng)友驚呼,「簡直不敢相信!」
神經(jīng)計算機(jī)就像是在AI計算軍備競賽中發(fā)出的一個示警信號。
據(jù)OpenAI發(fā)布的一項分析顯示,從2012年到2018年,最大規(guī)模的AI培訓(xùn)運行中使用的計算量增長了300,000倍,是3.5個月的兩倍,遠(yuǎn)遠(yuǎn)超過了摩爾定律的步伐。
AlexNet到AlphaGo零:計算量增長了300,000倍
先來了解一下IBM 的神經(jīng)計算機(jī)吧
IBM神經(jīng)計算機(jī)
IBM的神經(jīng)計算機(jī)由432個節(jié)點組成(每16個模塊卡中有27個節(jié)點),這些節(jié)點是IBM長期戰(zhàn)略合作伙伴Xilinx的現(xiàn)場可編程門陣列(FPGA,設(shè)計用于制造后配置的集成電路)。
IBM神經(jīng)計算機(jī)每個模塊卡中有27個節(jié)點
每個節(jié)點均有一個Xilinx Zynq單片系統(tǒng)(一個雙核ARM A9處理器與一個FPGA在同一芯片上配對)以及1GB專用RAM芯片。
節(jié)點以3D網(wǎng)格拓?fù)浣Y(jié)構(gòu)排列,并與電氣連接(稱為穿硅通孔,這些通孔可以完全穿過硅晶圓或芯片)垂直互連。 在3D網(wǎng)格拓?fù)浣Y(jié)構(gòu)中可以看到節(jié)點數(shù)字
在聯(lián)網(wǎng)方面,F(xiàn)PGA提供模塊卡之間物理通信的訪問,以便建立多個不同的通信通道。
理論上講,單個卡可以支持高達(dá)每秒432GB的傳輸速度,而神經(jīng)計算機(jī)的網(wǎng)絡(luò)接口可以自身調(diào)節(jié)并逐步優(yōu)化, 使其匹配給定的程序。
在論文中詳細(xì)簡述了神經(jīng)計算機(jī)框架的共同作者寫道,「我們系統(tǒng)的獨特之處在于每個節(jié)點允許特定應(yīng)用的處理器卸載,這一功能在我們所知任何規(guī)模的并行計算機(jī)上均不可用。多數(shù)性能的關(guān)鍵步驟已在FPGA上卸載和優(yōu)化,同時ARM處理器提供了輔助支持?!?/p>
既然對神經(jīng)計算機(jī)有所了解,那么IBM在神經(jīng)計算機(jī)上的首次應(yīng)用演示,系統(tǒng)是怎么達(dá)到創(chuàng)紀(jì)錄的每秒120萬幀的訓(xùn)練時間呢?
我們來一探究竟
用Atari游戲測試AI
用電子游戲來做測試,是AI和機(jī)器學(xué)習(xí)研究最好的平臺。
它們不僅可以隨時拿來進(jìn)行測試,而且大規(guī)模運行成本低。
比如在強(qiáng)化學(xué)習(xí)等特定領(lǐng)域中,為了獲取獎勵,AI通過與環(huán)境互動來學(xué)習(xí)最佳行為,游戲分?jǐn)?shù)便是最直接的獎勵。
游戲中開發(fā)的AI算法已表現(xiàn)出出可適應(yīng)更實際的用途,例如蛋白質(zhì)折疊預(yù)測研究。如果IBM神經(jīng)計算機(jī)測試結(jié)果是重復(fù)的,則該系統(tǒng)可以用于加速這些AI算法的開發(fā)。
研究人員在神經(jīng)計算機(jī)中每個卡使用了26個節(jié)點,對總共416個節(jié)點進(jìn)行了實驗。
Atari游戲應(yīng)用程序的兩個實例都是在416個FPGA中每個節(jié)點上運行,最多可擴(kuò)展到832個節(jié)點并行運行的實例。
每個實例都從給定的Atari 2600游戲中提取幀,執(zhí)行圖像預(yù)處理,通過機(jī)器學(xué)習(xí)模型運行圖像,并在游戲中執(zhí)行操作。
使用深度神經(jīng)在FPGAs訓(xùn)練游戲的截圖
為了獲得最高的性能,研究團(tuán)隊避免仿真Atari 2600,而是選擇使用FPGA在更高的頻率下實現(xiàn)控制臺的功能。
他們采用了開源MiSTer項目的框架,該項目旨在使用現(xiàn)代硬件重新創(chuàng)建控制臺和街機(jī),并將Atari 2600的處理器時鐘頻率從3.58 MHz提高到150 MHz,每秒產(chǎn)生約2514幀。
在圖像預(yù)處理步驟中,IBM的應(yīng)用程序?qū)瑥牟噬D(zhuǎn)換為灰色,消除了閃爍,將圖像重新縮放為較小的分辨率,然后將幀堆疊為四組。
然后將它們傳遞到推理游戲環(huán)境的AI模型和一個子模塊,該子模塊通過識別AI模型預(yù)測的最大獎勵來選擇下一幀的動作。
在五個實驗過程中,IBM研究人員在神經(jīng)計算機(jī)上運行了59個Atari 2600游戲。
結(jié)果表明,與其他強(qiáng)化學(xué)習(xí)技術(shù)相比,該方法的數(shù)據(jù)效率不高,總共需要60億個游戲框架,但在Montezuma的Revenge and Pitfall等具有挑戰(zhàn)性、探索性的游戲中失敗了。
在59個游戲中有30場勝出,Deep Q-network花了10天進(jìn)行訓(xùn)練,而IBM團(tuán)隊只用了6分鐘來訓(xùn)練(2億個訓(xùn)練幀)
在神經(jīng)計算機(jī)上運行的59個Atari 2600游戲有60億個訓(xùn)練幀,在36場比賽中超過了Deep Q-network,而訓(xùn)練時間減少了2個數(shù)量級(2小時30分鐘)。
關(guān)鍵詞: 神經(jīng)計算機(jī)系統(tǒng)