【芯片】訓(xùn)練時間降低90%以上!世界最大的芯片WSE有望打破AI計算瓶頸
發(fā)布日期:2020-01-04
點擊次數(shù):580
【新智元導(dǎo)讀】還記得幾個月前問世的世界最大的AI芯片嗎?IEEE Spectrum團隊最近訪問了其制造商Cerebras的工廠,并對CEO和技術(shù)團隊進行了訪談,CerebrasCEO表示,這款劃時代的芯片有望突破AI的計算瓶頸,將訓(xùn)練時間由幾周縮短到幾小時。戳右邊鏈接上新智元小程序了解更多!
人工智能計算機初創(chuàng)公司Cerebras Systems CEO兼聯(lián)合創(chuàng)始人Andrew Feldman表示,如今的人工智能僅僅只是開始。
正如他及其同僚所言,問題在于當(dāng)今的深度神經(jīng)網(wǎng)絡(luò)十分耗時且計算密集,訓(xùn)練非常困難。比如,自動駕駛汽車要識別道路上遇到的所有重要物體,神經(jīng)網(wǎng)絡(luò)需要向其顯示所有物體的很多、很多相關(guān)圖像。這一過程在數(shù)據(jù)中心進行,由耗電數(shù)十有時甚至數(shù)百千瓦的計算機完成,任務(wù)時間經(jīng)常長達數(shù)周。
Cerebras的客戶抱怨說,使用當(dāng)下的計算機訓(xùn)練大型神經(jīng)網(wǎng)絡(luò)的時間可能長達6周。照這樣,一年只能訓(xùn)練6個神經(jīng)網(wǎng)絡(luò)。“只有驗證更多想法才會產(chǎn)生新想法,” Feldman說。“如果能在2或3個小時內(nèi)完成[網(wǎng)絡(luò)訓(xùn)練],就可以嘗試數(shù)千個想法。”
當(dāng)IEEE Spectrum訪問位于美國加州Los Altos的Cerebras總部時,這些客戶及一些潛在客戶已經(jīng)通過橙色光纜把他們的訓(xùn)練數(shù)據(jù)輸入4臺CS-1計算機。這些64厘米高的機器運轉(zhuǎn)起來,每臺消耗20千瓦,散發(fā)的熱量通過墻上的一個洞流到硅谷的大街上。
從外面看,CS-1機身并不大,每個機箱大約3/4是冷卻系統(tǒng),余下的1/4則是真正的革命:一臺性能強悍的計算機,幾乎完全由一整塊芯片組成。這塊芯片的面積高達46,255平方毫米,是任何一塊可以買到的處理器芯片的50+倍。這就是由Cerebras生產(chǎn)的世界最大芯片Wafer Scale Engine (WSE),它有12,000億個晶體管,400,000個AI可編程內(nèi)核,18 GB超快速片上存儲器(SRAM)和100Petabits /s的結(jié)構(gòu)帶寬。
Cerebras的統(tǒng)計數(shù)據(jù)令人震驚。據(jù)稱,一個10機架TPU二代集群(現(xiàn)在已更新為Google AI計算機的第三代集群)所耗電量是其5倍,占用空間是其30倍,而性能僅有搭載WSE芯片的計算機的1/3。單塊巨型芯片是否真正是AI社區(qū)所需,相信這個答案從今年開始就會清晰起來。美國加州山景城公司LinleyGroup的高級分析師Mike Demler說:“ [神經(jīng)網(wǎng)絡(luò)]模型日益復(fù)雜,能夠快速訓(xùn)練或再訓(xùn)練確實很重要。”
Feldman說,2015年當(dāng)Cerebras的創(chuàng)始人們開會時,他們想要打造完全適配當(dāng)下AI工作場景的計算機,這些工作場景有若干項定義:它們需要快速移動大量數(shù)據(jù),它們需要內(nèi)存接近于處理器內(nèi)核,并且這些內(nèi)核不需要處理其他內(nèi)核正在處理的數(shù)據(jù)。
這立即給了公司資深的計算機架構(gòu)師一些啟發(fā)。首先,他們可以使用成千上萬個專門用于神經(jīng)網(wǎng)絡(luò)相關(guān)計算的小型內(nèi)核,而不是更少、更通用的內(nèi)核;其次,這些內(nèi)核應(yīng)該互連在一起,可以快速而低耗的移動數(shù)據(jù);最后,所有數(shù)據(jù)應(yīng)該在處理器芯片上,而不是在單獨的存儲芯片上。
在這些內(nèi)核之間來回移動數(shù)據(jù)的需求,正是WSE獨特性的來源。兩個內(nèi)核之間移動數(shù)據(jù)最快、能耗最低的方法是將其放在同一硅基片。當(dāng)數(shù)據(jù)必須從一個芯片傳輸至另一個芯片時,由于距離更長并且傳遞信號的“電線”必須更寬并且包裝密度更低,從而在速度和功耗上大打折扣。
所有通信在硅上的驅(qū)動力,以及對小內(nèi)核和本地存儲器的渴望,都表明要盡可能生產(chǎn)大芯片,也許是整個硅晶圓那么大。Feldman說,很明顯,我們做不到這一點,但是這顯然有很大的好處。
數(shù)十年,工程師一直認為晶圓級芯片是一條死路。畢竟,IBM System/360大型機的首席架構(gòu)師Gene Amdahl曾在一家名為Trilogy Systems的公司嘗試并失敗了,但它足夠令人稱奇。但是Lauterbach和Feldman說,任何與Amdahl方法的對比都已經(jīng)過時。當(dāng)時Amdahl使用的晶圓尺寸只有現(xiàn)在的1/10,而晶圓上相關(guān)器件的尺寸則是現(xiàn)在的30倍。
更重要的是,Trilogy無法處理生產(chǎn)芯片時出現(xiàn)的不可避免的錯誤。如果其他所有條件相同,隨著芯片增大,缺陷的可能性也會增加。如果你的芯片尺寸接近于一張信紙(8.5" *11"規(guī)格),那么缺陷在所難免。
但是Lauterbach看到了一種架構(gòu)解決方案:由于他們針對的工作負載傾向于擁有數(shù)千個相同的小型內(nèi)核,因此可以嵌入足夠多的冗余內(nèi)核,這甚至可以解決1/100的缺陷造成的故障,并且依然不失為一塊功能強勁的大型芯片。
當(dāng)然,Cerebras仍然不得不解決許多制造問題,才能打造其容錯性的giganto芯片。比如,光刻工具被設(shè)計為將其定義特征的樣式投射到相對較小的矩形上,并一遍遍重復(fù)進行。由于在晶片不同位置澆鑄不同樣式的高昂成本和巨大困難,這樣已經(jīng)把打造單一晶圓的許多系統(tǒng)拒之門外。
Cerebras內(nèi)部:冷卻系統(tǒng)占CS-1大部分,WSE芯片位于左后角。
但是WSE無需這樣。它就像布滿相同芯片的典型晶圓,與你平常制造的一樣。最大的挑戰(zhàn)是把這些偽芯片連接在一起。
芯片制造商在每個芯片周圍留下空白硅的細長邊緣,稱之為劃片線。晶圓通常沿著這些線切成小塊。Cerebras與臺積電(TSMC)合作開發(fā)了一種跨劃片線建立互連的方法,使每個偽芯片中的內(nèi)核皆可通信。
現(xiàn)在,所有通信和內(nèi)存在一塊硅片上,數(shù)據(jù)傳輸可以暢通無阻,從而產(chǎn)生每秒1,000 PB的內(nèi)核到內(nèi)核帶寬和每秒9 PB的SRAM到內(nèi)核帶寬。Feldman說,這不僅僅是多,而是帶寬4個數(shù)量級的提升,因為我們在硅片上。
跨劃片線互連并不是需要的唯一發(fā)明。制造芯片的硬件必須進行改良。即使電子設(shè)計自動化軟件也要進行定制才能在如此大的芯片上工作。Feldman說,每條規(guī)則,每個工具,每個制造設(shè)備都旨在拾取一塊正常大小“巧克力芯片曲奇”,而[我們]要交付的是整個曲奇烤盤;方法的每一步,我們都必須發(fā)明。
他接著說,晶圓級集成在人們視野中消失了40年,但它肯定會在某個時候再出現(xiàn);既然Cerebras已經(jīng)做到,那扇門可能也會向其他人打開。“我們認為其他人將尋求與我們合作解決AI以外的問題。”他又說。
2018年,Google、百度及一些學(xué)術(shù)頂級機構(gòu)開始制定基準(zhǔn),允許系統(tǒng)之間進行一一對應(yīng)的比較。結(jié)果,MLPerf于2018年5月發(fā)布了訓(xùn)練基準(zhǔn)。
借助這些基準(zhǔn),神經(jīng)網(wǎng)絡(luò)訓(xùn)練技術(shù)在過去幾年取得長足進步。Nvidia DGX SuperPOD(本質(zhì)上是有1,500塊GPU的超級計算機)可在80秒內(nèi)完成ResNet-50圖像分類問題,與之相比,Nvidia DGX-1(大約在2017年)花費了8個小時,K80(在2015年)花費了25天。
Cerebras尚未發(fā)布MLPerf結(jié)果,以及任何其他可獨立一一核對的結(jié)果。相反,他們更傾向于讓客戶使用自己的神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)來試用CS-1。
分析師認為,這種做法很常見。“每個公司都根據(jù)自身業(yè)務(wù)開發(fā)相關(guān)模型,” Moor Insights的AI分析師Karl Freund說。“這是客戶唯一關(guān)心的事情。”
舉個例子,早期的客戶阿貢國家實驗室的需求很大。最近在訓(xùn)練神經(jīng)網(wǎng)絡(luò)以實時識別不同類型的引力波事件時,科學(xué)家使用了阿貢實驗室耗電兆瓦級別的Theta超級計算機(排名第28的全球最強大系統(tǒng))資源的1/4。
把功耗降到僅幾千瓦對超算來說似乎是一個核心優(yōu)勢。這是否是一個吸引數(shù)據(jù)中心的賣點,不幸的是Lauterbach對此表示懷疑。他說:“雖然許多數(shù)據(jù)中心都在談節(jié)能降耗,但只是口頭說說,實際上并不在意,他們真正想要的是性能。這當(dāng)然是一個幾乎和餐盤差不多大小的處理器芯片所能滿足的。”
深圳市晶友嘉電子有限公司在頻率器件行業(yè)已發(fā)展超過14年, 具備國際標(biāo)準(zhǔn)體系ISO9001、ISO14001等認證, 在深圳建有生產(chǎn)基地,能快速化響應(yīng)市場需求,供應(yīng)性能穩(wěn)定和高性價比的貼片和插件晶振;
貼片晶振產(chǎn)品廣泛的應(yīng)用在電源管理、儀器儀表、PC及周邊小家電、通訊產(chǎn)品、邏輯電路、應(yīng)用于DVB (數(shù)字機頂盒)、GPS(衛(wèi)星定位)、DVD及數(shù)碼相框、高性能MODEM、路由器、VPN接入服務(wù)器、無線路由器、網(wǎng)絡(luò)存儲設(shè)備(NAS)、VOIP網(wǎng)關(guān)、數(shù)字硬盤錄像機(Digital video recorder, DVR)、DSLAMs、高端打印機、教學(xué)演示網(wǎng)絡(luò)設(shè)備、交換機、機頂盒、稅控機、液晶顯示驅(qū)動、鼠標(biāo)、鍵盤、藍牙音響、車載MP3、LCD控制板。
應(yīng)用領(lǐng)域:新能源汽車電子、智能機器人、無人機、醫(yī)療電子、2.4G無線通訊、微波通信、光網(wǎng)絡(luò)通訊、藍牙、移動終端、物聯(lián)網(wǎng)、工業(yè)控制、及安防行業(yè)都取得一定的市場占有率。
晶友嘉是品質(zhì)晶振生產(chǎn)廠家,歡迎來廠蒞臨指導(dǎo),電話:0755-32840201
貼片晶振產(chǎn)品廣泛的應(yīng)用在電源管理、儀器儀表、PC及周邊小家電、通訊產(chǎn)品、邏輯電路、應(yīng)用于DVB (數(shù)字機頂盒)、GPS(衛(wèi)星定位)、DVD及數(shù)碼相框、高性能MODEM、路由器、VPN接入服務(wù)器、無線路由器、網(wǎng)絡(luò)存儲設(shè)備(NAS)、VOIP網(wǎng)關(guān)、數(shù)字硬盤錄像機(Digital video recorder, DVR)、DSLAMs、高端打印機、教學(xué)演示網(wǎng)絡(luò)設(shè)備、交換機、機頂盒、稅控機、液晶顯示驅(qū)動、鼠標(biāo)、鍵盤、藍牙音響、車載MP3、LCD控制板。
應(yīng)用領(lǐng)域:新能源汽車電子、智能機器人、無人機、醫(yī)療電子、2.4G無線通訊、微波通信、光網(wǎng)絡(luò)通訊、藍牙、移動終端、物聯(lián)網(wǎng)、工業(yè)控制、及安防行業(yè)都取得一定的市場占有率。
晶友嘉是品質(zhì)晶振生產(chǎn)廠家,歡迎來廠蒞臨指導(dǎo),電話:0755-32840201