訓練機器的成本正成為一個問題

首頁新增資料與公告

最新消息 :

數字分析 - 中國於非洲農業報導之破解

索馬利亞的乾旱影響和解決方案建議

在非洲商業邊緣爭奪空間-本土企業與中資企業之間日益激烈的競爭

數據分析與知識產業

訓練機器的成本正成為一個問題

中興大學生物系統工程研究室陳加忠

資料來源:

https://www.economist.com/weeklyedition/2020-06-13

複雜性和競爭的加劇是其中的一部分。

計算行業的基本假設是，數字處理一直都很便宜。摩爾定律是該行業的主要節拍器，它預測可壓縮到給定大小的微晶片上的組件數量（因此，用以代表一定成本可獲得的計算能力數量）每兩年增加一倍

史丹福大學AI實驗室主任Christopher Manning表示，對於許多相對簡單的AI應用而言，這意味著訓練電腦的成本正在下降。但這並不是到處都是。不斷增加的複雜性和競爭結合在一起，意味著最前端的成本急劇上升。

Manning以BERT為例，它是Google在2018年建立的一種AI語言模型，已在此公司的搜索引擎中使用。它具有超過350m的內部參數，和對數據的巨大興趣。它使用了33億個文字的單詞進行了訓練，這些單詞大部分來自在線百科全書Wikipedia。Manning說，這些天來，維基百科並不是一個很大的數據集。 “如果您可以用300億個單詞訓練一個系統，那麼它的性能將比用30億個單詞訓練的系統更好。而更多的數據意味著擁有更多的計算能力來處理這一切。

總部位於加利福尼亞的Open AI研究公司表示，隨著圍繞機器學習的熱情開始增強，在2012年對處理能力的需求開始上升。它急劇加速。到2018年，用於訓練大型模型的電腦功能已增加了30萬倍，並且每三個半月增加一倍。為了訓練自己的“ OpenAI Five”系統，該系統目的是在在流行的視頻遊戲“ Defense of the Ancients 2”中擊敗人類，它將機器學習規模擴展到“前所未有的水平”，不間斷運行數千個晶片十多個月。

確切的數字表明所有這些費用很少。但是，馬薩諸塞州大學Amherst的研究人員在2019年發表的一篇論文中估計，訓練一個版本的“變形金剛”（另一種主要的語言模型）可能要花費300萬美元。 Facebook的AI負責人Jerome Pesenti說，針對大型模型進行的一輪訓練可能會耗費數百萬美元的電力。

Facebook在2019年實現了185億美元的利潤，可以負擔這些賬單。那些沒有那麼充裕的現金的人感到緊張。有影響力的美國風險投資公司Andreessen Horowitz指出，許多AI初創公司從諸如Amazon和Microsoft之類的雲端計算公司那裡租借其處理能力。產生的賬單有時佔收入的25％或更多，是AI初創公司對於可能進行的投資不如老式軟件公司那麼有吸引力的原因之一。3月，Manning博士在史丹福大學的同事，包括AI傑出人物Fei-Fei Li發起了國家研究雲端（National Research Cloud），這是一項雲端計算計劃。目的在幫助美國AI研究人員跟上不斷增加的費用。

對計算能力的不斷增長的需求推動了晶片設計和專用設備的蓬勃發展，這些設備可以高效地執行AI中使用的計算。第一波專業晶片是圖形處理單元（GPU）。在1990年代設計，用於增強視頻遊戲圖形。幸運的是，GPU也非常適合人工智慧中使用的那種數學。

進一步的專業化是可能的，並且有公司正致力於提供它。去年12月，巨型晶片製造商英特爾以20億美元收購了以色列公司Habana Labs。成立於2016年的英國公司Graphcore在2019年的估計值為20億美元。最大的GPU製造商Nvidia等現有公司已經對其設計進行了重新設計，以適應AI。 Google內部設計了自己的“tension-processing”（TPU）晶片。中國科技巨頭百度使用自己的“崑崙”晶片。畢馬威會計師事務所的Alfonso Marone認為專門的AI晶片已經價值約100億美元，到2025年可能達到800億美元。

Graphcore的聯合創始人之一Nigel Toon說：“計算機體系結構需要遵循它們正在處理的數據的結構。” AI工作負載的最基本特徵是它們可以令人尷尬地並行。這代表著它們可以被切成數千個塊，並且可以同時進行處理。例如，Graphcore的晶片具有1200多個單獨的數字運算核心，並且可以鏈接在一起以提供更多功率。加利福尼亞的創業公司Cerebras採取了極端的方法。晶片通常是分批製造的，有數十或數百個蝕刻在直徑300mm的標準矽晶片上。 Cerebras的每個晶片都自己佔據了整個晶圓。這樣一來，該公司就可以將400,000個核心插入其中。

其他最佳化也很重要。 Cerebras的創始人之一Andrew Feldman指出，人工智慧模型花費大量時間將數字乘以零。由於這些計算總是得出零，因此每個計算都是不必要的，因此Cerebras的晶片在於避免執行這些計算。 Graphcore的Toon先生說，與許多任務不同，人工智慧不需要超精確的計算。這意味著晶片設計人員可以通過降低其創作所佔用的數字的保真度來節省能源。然而確切的計算結果模糊程度仍是一個懸而未決的問題。

所有這些都可以加起來。 Toon先生認為Graphcore當前的晶片效率是GPU的10到50倍。他們已經找到了進入戴爾出售的專用電腦以及微軟的雲端計算服務Azure的途徑。Cerebras已經為美國兩個大型政府實驗室提供了設備。

“不再有摩爾定律”

此類創新將變得越來越重要，因為AI推動的計算機功能需求激增，正好是摩爾定律用盡之時。縮小晶片變得越來越困難。而這樣微小也沒得到好處。去年，Nvidia的創始人Jensen Huang直言的說：“摩爾定律再也不可能了”。

因此，其他研究人員正在尋找更多具有異國情調的想法。一種是量子計算法，它利用量子力學的反直覺特性為某些類型的計算提供了大幅度的增速。關於機器學習的一種思考方式是最佳化問題，其中電腦試圖在數百萬個變量之間進行權衡，以求出盡可能減少數量的解決方案。微軟研究院量子架構與計算小組的負責人Krysta Svore說，一種稱為Grover算法的量子計算技術可以大大提高速度。

另一個想法是從生物學中獲得啟發，這證明了當前的蠻力方法不是唯一的可用方法。平面運行時，Cerebras的晶片消耗約15kW的功率，足以為數十座房屋供電，而同等數量的GPU消耗的功率要多得多。相比之下，人腦使用大約20W的能量（大約是其千分之一），並且在許多方面都比矽技術聰明。因此，諸如英特爾和IBM之類的公司正在研究神經形態晶片。其中目的在於更緊密地模仿組成生物大腦的神經元其電學行為的組件。

但是，到目前為止，一切還很遙遠。量子計算機在理論上相對容易理解，但是儘管有Google，微軟和IBM等技術巨頭提供了數十億美元的資金，但實際上建造它們仍然是工程上的挑戰。神經形態晶片是使用現有技術構建的，但是神經科學家仍然不了解大腦究竟能做什麼或如何去做，這一事實使他們的設計受挫。

這意味著在可預見的未來，人工智慧研究人員將不得不面對現有計算技術的性能下降。Toon先生樂觀，認為更專業的硬體和調整現有軟體以使其運行更快，這將帶來很多收益。為了量化新生領域的進展，他提供了一個與視頻遊戲的類比：“我們過去是Pong，”他說。“我們現在可能在Pac-Man。”所有無數以百萬計的人都希望他是對的。