日本综合一区二区|亚洲中文天堂综合|日韩欧美自拍一区|男女精品天堂一区|欧美自拍第6页亚洲成人精品一区|亚洲黄色天堂一区二区成人|超碰91偷拍第一页|日韩av夜夜嗨中文字幕|久久蜜综合视频官网|精美人妻一区二区三区

RELATEED CONSULTING
相關(guān)咨詢
選擇下列產(chǎn)品馬上在線溝通
服務(wù)時(shí)間:8:30-17:00
你可能遇到了下面的問(wèn)題
關(guān)閉右側(cè)工具欄

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案
從GPU、TPU到FPGA及其它:一文讀懂神經(jīng)網(wǎng)絡(luò)硬件平臺(tái)戰(zhàn)局

在如今深度學(xué)習(xí)大爆發(fā)的時(shí)代,相關(guān)的硬件平臺(tái)也在百花齊放,既有英偉達(dá)和谷歌這樣的科技巨頭,也有地平線機(jī)器人和 Graphcore 等創(chuàng)業(yè)公司——它們都各自提出了自己的解決方案。近日,多家公司的技術(shù)顧問(wèn) Matt Hurd 在其博客上發(fā)表了一篇全面評(píng)點(diǎn)各種神經(jīng)網(wǎng)絡(luò)硬件平臺(tái)的長(zhǎng)文,本文進(jìn)行了編譯介紹。

專注于為中小企業(yè)提供成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站制作服務(wù),電腦端+手機(jī)端+微信端的三站合一,更高效的管理,為中小企業(yè)集賢免費(fèi)做網(wǎng)站提供優(yōu)質(zhì)的服務(wù)。我們立足成都,凝聚了一批互聯(lián)網(wǎng)行業(yè)人才,有力地推動(dòng)了上千余家企業(yè)的穩(wěn)健成長(zhǎng),幫助中小企業(yè)通過(guò)網(wǎng)站建設(shè)實(shí)現(xiàn)規(guī)模擴(kuò)充和轉(zhuǎn)變。

這是我?guī)字芮白龅囊粋€(gè)傳統(tǒng)的 90 年代風(fēng)格的性別識(shí)別神經(jīng)網(wǎng)絡(luò)的很好的隱藏節(jié)點(diǎn)。

一個(gè)簡(jiǎn)單的性別識(shí)別器網(wǎng)絡(luò)中的 90 年代風(fēng)格的隱藏節(jié)點(diǎn)圖像

我的碩士項(xiàng)目是一種類似級(jí)聯(lián)相關(guān)(cascade correlation)的神經(jīng)網(wǎng)絡(luò) Multi-rate Optimising Order Statistic Equaliser(MOOSE:多速率優(yōu)化順序統(tǒng)計(jì)均衡器),可用于日內(nèi)的 Bund(國(guó)庫(kù)債券產(chǎn)品)交易。MOOSE 曾經(jīng)是為獲取高速的 LEO 衛(wèi)星信號(hào)(McCaw 的 Teledesic)而設(shè)計(jì)的一點(diǎn)成果,后來(lái)在從 LIFFE 遷移到 DTB 時(shí)將目標(biāo)轉(zhuǎn)向了 Bund。作為一家投資銀行的職業(yè)交易員,我可以購(gòu)買很好的工具。我有那時(shí)候世界上最快的計(jì)算機(jī):一個(gè) IBM MicroChannel dual Pentium Pro 200MHz 處理器外加帶有幾 MB RAM 的 SCSI。在 1994 年那會(huì)兒,將 800,000 個(gè)數(shù)據(jù)點(diǎn)輸入到我的 C++ stream/dag 處理器中看上去就像是黑魔法。有限差分方法讓我可以做許多 O(1) 增量線性回歸這樣的運(yùn)算,以獲得 1000 倍的加速。那時(shí)候這看起來(lái)已經(jīng)很好了?,F(xiàn)在,你的手機(jī)都能嘲笑我的大方向。

那時(shí)候,在神經(jīng)網(wǎng)絡(luò)領(lǐng)域有很多研究。倒不是說(shuō)它有過(guò)人的生產(chǎn)力,只是因?yàn)橛杏?。讀到 Lindsay Fortado 和 Robin Wigglesworth 的 FT 文章《Machine learning set to shake up equity hedge funds》中 Eric Schmidt 關(guān)于機(jī)器學(xué)習(xí)和交易的看法,還真有點(diǎn)讓人高興:

Eric Schmidt 是谷歌母公司 Alphabet 的執(zhí)行董事長(zhǎng),他上周對(duì)一眾對(duì)沖基金經(jīng)理說(shuō)他相信在 50 年內(nèi),所有交易都會(huì)有計(jì)算機(jī)解讀數(shù)據(jù)和市場(chǎng)信號(hào)。

「我期待出現(xiàn)在交易方面做機(jī)器學(xué)習(xí)的創(chuàng)業(yè)公司,看看我描述的這種模式識(shí)別能否比數(shù)據(jù)分析專家的傳統(tǒng)線性回歸算法做得更好。」他補(bǔ)充說(shuō),「我這個(gè)行業(yè)內(nèi)的許多人都認(rèn)為這注定將成為一種新的交易形式?!?/p>

老朋友 Eric,我在 90 年代早期就已經(jīng)算是遲到了,你真是有點(diǎn)后知后覺(jué)。

好吧,現(xiàn)在情況已經(jīng)不同了。我喜歡思考它,并喜歡將神經(jīng)網(wǎng)絡(luò)的這次新復(fù)興稱為感知時(shí)代(The Age of Perception)。這并不是智能,只是擅長(zhǎng)模式而已。它仍然無(wú)力應(yīng)對(duì)語(yǔ)言歧義。它還要一些時(shí)間才能理解基本的價(jià)值和概念,從而形成深刻的金融理解。

深度學(xué)習(xí)既被夸大了,也被低估了。這不是智能,但會(huì)有助于幫我們實(shí)現(xiàn)智能。一些人將其夸大為將會(huì)給我們帶來(lái)替代人的類人機(jī)器的人工智能突破。我們?nèi)匀贿€受困于常識(shí)以及用于推理的簡(jiǎn)單文本中的歧義。我們還有很長(zhǎng)的路要走。相對(duì)簡(jiǎn)單的規(guī)劃算法和啟發(fā)式方法以及基于神奇的深度學(xué)習(xí)的視覺(jué)、聲音、文本、雷達(dá)等等的感知能力將會(huì)帶來(lái)深刻的影響,就像是每個(gè)人和他們的狗現(xiàn)在理解的那樣。所以我叫它「感知時(shí)代」。就好像是我們口袋里的超級(jí)計(jì)算機(jī)突然有了眼睛,并且快速適應(yīng)了真實(shí)世界所帶來(lái)的閃光性致盲。

深度學(xué)習(xí)將會(huì)帶來(lái)巨大的影響,并且將會(huì)改變這顆行星上全人類的生活方式。但我們低估了其對(duì)我們的危險(xiǎn)。不,我們不會(huì)和能激起或挑戰(zhàn)我們最深刻的思想的深度圖靈對(duì)話者約會(huì)——還不會(huì)。這將不可避免地到來(lái),但在可見(jiàn)的未來(lái)里還不可見(jiàn)。借助語(yǔ)音、文本和 Watson 那樣的數(shù)據(jù)庫(kù)的智能代理可以實(shí)現(xiàn)非常 Eliza,但不會(huì)更先進(jìn)了。自動(dòng)化運(yùn)輸、食物生產(chǎn)、建筑、協(xié)助家事將會(huì)極大地改變?nèi)藗兊纳罘绞胶筒粍?dòng)產(chǎn)的價(jià)值。

除了這些泛泛之談,本文的目的是收集一些關(guān)于芯片的思想見(jiàn)解——它們驅(qū)動(dòng)著當(dāng)前的神經(jīng)網(wǎng)絡(luò)革命。其中很多見(jiàn)解都不是最為激動(dòng)人心的,但這對(duì)我來(lái)說(shuō)是一個(gè)有用的鍛煉。

神經(jīng)網(wǎng)絡(luò)硬件

與 20 年前相比,今天的神經(jīng)處理方法并沒(méi)有很大不同。深度更多的是一個(gè)品牌,而不是一項(xiàng)差異。激活函數(shù)已經(jīng)得到了簡(jiǎn)化,以更好地適配硬件。主要的成功之處在于我們有了更多數(shù)據(jù),對(duì)如何初始化權(quán)重、處理許多層、并行化和提升魯棒性也有了更好的理解,其中要用到像是 dropout 這樣的技術(shù)。1980 年的 Neocognitron 架構(gòu)與今天的深度學(xué)習(xí)器或 CNN 并沒(méi)有顯著差異,但 Yann LeCun 讓它具備了學(xué)習(xí)能力。

在 90 年代那會(huì)兒也有很多神經(jīng)硬件平臺(tái),比如 CNAPS(1990),它帶有 64 個(gè)處理單元和 256kB 內(nèi)存,可以在 8/16 位條件下達(dá)到 1.6 GCPS 的速度(CPS 是指每秒連接次數(shù)/ connections per second)或在 1 位條件下達(dá)到 12.8 GCPS 的速度。你可以在《神經(jīng)硬件概述(Overview of neural hardware)》[Heemskerk, 1995, draft] 中讀到

Synapse-1、CNAPS、SNAP、CNS Connectionist Supercomputer、Hitachi WSI、My-Neupower、LNeuro 1.0、UTAK1、GNU(通用神經(jīng)單元/General Neural Unit)Implementation、UCL、Mantra 1、Biologically-Inspired Emulator、INPG Architecture、BACHUS 和 ZISC036。

閱讀地址:

https://pdfs.semanticscholar.org/5841/73aa4886f87da4501571957c2b14a8fb9069.pdf

好吧,東西還真多,但實(shí)際上還排除了軟件和加速器板/CPU 組合,比如 ANZA plus、SAIC SIGMA-1、NT6000、Balboa 860 協(xié)處理器、Ni1000 識(shí)別加速器硬件(英特爾)、IBM NEP、NBC、Neuro Turbo I、Neuro Turbo II、WISARD、Mark II & IV、Sandy/8、GCN(索尼)、Topsi、BSP400(400 微處理器)、DREAM Machine、RAP、COKOS、REMAP、通用并行神經(jīng)計(jì)算機(jī)(General Purpose Parallel Neurocomputer)、TI NETSIM 和 GeNet。另外還有一些模擬和混合模擬的實(shí)現(xiàn),包括英特爾的電氣式可訓(xùn)練模擬神經(jīng)網(wǎng)絡(luò)(801770NX)。你懂我要表達(dá)的意思了,那時(shí)候的東西還真是多。

這在 1994 年迎來(lái)了一次爆發(fā):

樂(lè)觀的摩爾定律告訴我們,TeraCPS 即將實(shí)現(xiàn):

「未來(lái)十年,微電子很可能將繼續(xù)主導(dǎo)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的領(lǐng)域。如果進(jìn)展和過(guò)去進(jìn)步得一樣快,那就意味著神經(jīng)計(jì)算機(jī)的性能將會(huì)增長(zhǎng)大約 2 個(gè)數(shù)量級(jí)。因此,神經(jīng)計(jì)算機(jī)將會(huì)接近 TeraCPS(10^12 CPS)的性能。由 100 萬(wàn)個(gè)節(jié)點(diǎn)(每個(gè)節(jié)點(diǎn)有大約 1000 個(gè)輸入)組成的網(wǎng)絡(luò)可以達(dá)到大腦的計(jì)算速度(100-1000 Hz)。這將能為實(shí)驗(yàn)合理巨大的網(wǎng)絡(luò)提供良好的機(jī)會(huì)。」

由于 Minsky 和 Papert 對(duì)隱藏層的不正確簡(jiǎn)單概括,打擊了 Rosenblatt 的感知器夢(mèng)想并最終導(dǎo)致了他不幸的死亡,神經(jīng)網(wǎng)絡(luò)研究遭遇了第一個(gè)冬天,研究資金被殘酷地撤銷了。1995 年,又出現(xiàn)了另一次神經(jīng)網(wǎng)絡(luò)冬天,盡管那時(shí)候我其實(shí)并不知道。作為溫水鍋里的一只青蛙,我沒(méi)有注意到正在加熱。第二個(gè)冬天的主要原因是缺乏激動(dòng)人心的進(jìn)展,讓人們普遍感到無(wú)聊了。

到了 2012 年,多虧了 Geoffrey Hinton 的冬季生存技能,多倫多大學(xué)基于 AlexNet 開發(fā)的 SuperVision 在 ImageNet 處理上實(shí)現(xiàn)了極大的提升,第二個(gè)神經(jīng)網(wǎng)絡(luò)冬天也由此終結(jié)了。之后谷歌的 LeNet Inception 模型在 2014 年打破了它的記錄。所以據(jù)我估計(jì),感知時(shí)代始于 2012 年。將它記在你的日歷里面吧,五年已經(jīng)過(guò)去了。

谷歌在幾千臺(tái)普通機(jī)器上進(jìn)行了出色的并行 CPU 有損更新研究。吳恩達(dá)教授和他的朋友們讓數(shù)十臺(tái) GPU 就能完成數(shù)千臺(tái) CPU 的工作,從而讓規(guī)?;蔀榱丝赡堋R虼?,我們從需要很好的資助的神經(jīng)處理前景中解放了出來(lái)。好吧,或多或少吧,現(xiàn)在最網(wǎng)絡(luò)有時(shí)候需要數(shù)千臺(tái) GPU 或?qū)S眯酒?/p>

更多數(shù)據(jù)和更多處理能力是其中的關(guān)鍵。讓我們進(jìn)入本文的重點(diǎn),列出一些感知時(shí)代大數(shù)據(jù)之戰(zhàn)中的一些關(guān)鍵平臺(tái):

英偉達(dá)的 GPU

這一家是很難被戰(zhàn)勝的。來(lái)自大型視頻處理市場(chǎng)的收益驅(qū)動(dòng)著巨大的規(guī)模經(jīng)濟(jì)。新款英偉達(dá) V100 帶有一種新的 Tensor Core 架構(gòu),速度可達(dá) 15 TFlops(單精度/SP)或 120 TFlops(浮點(diǎn)精度,其中帶有 FP16 的乘法和 FP32 的累加或加法,非常適合機(jī)器學(xué)習(xí))。英偉達(dá)在它們的 DGX-1 中裝入了 8 塊計(jì)算卡,速度可達(dá) 960 Tensor TFlops.

AMD 的 GPU

在機(jī)器學(xué)習(xí)領(lǐng)域,AMD 一直是英偉達(dá)的追趕者。即將發(fā)布的 AMD Radeon Instinct MI25 有希望達(dá)到 12.3 TFlops(SP)或 24.6 TFlops(FP16)。如果你把英偉達(dá)的 Tensor Core 也算進(jìn)來(lái),則 AMD 完全無(wú)力競(jìng)爭(zhēng)。英偉達(dá)設(shè)備的帶寬 900GB/s 也是 AMD 484GB/s 的兩倍。

谷歌的 TPU

谷歌原來(lái)的 TPU 相比于 GPU 有很大的領(lǐng)先,并幫助 DeepMind 的 AlphaGo 贏得了與李世石的圍棋大戰(zhàn)。據(jù)描述,原來(lái)的 700 MHz TPU 有 95 TFlops 的 8 位計(jì)算能力或 23 TFlops 的 16 位計(jì)算能力,同時(shí)功耗僅有 40W。這可比當(dāng)時(shí)的 GPU 快得多,但現(xiàn)在落后于英偉達(dá)的 V100;但在單位功耗的計(jì)算能力上,TPU 并沒(méi)落后。據(jù)稱新的 TPU2 是一款帶有 4 塊芯片的 TPU 設(shè)備,速度可達(dá)到 180 TFlops 左右。每塊芯片的性能都翻倍了,達(dá)到了 45 TFlops 的 16 位計(jì)算能力。你可以看到與英偉達(dá) V100 的差距正在變小。你沒(méi)法買到 TPU 或 TPU2。谷歌正在通過(guò)它們的云提供這些 TPU 服務(wù),包含 64 臺(tái)設(shè)備的 TPU pod 速度高達(dá) 11.5 PetaFlops。TPU2 上巨大的散熱片說(shuō)明了一些原因,但市場(chǎng)正在發(fā)生變化——從單獨(dú)的設(shè)備轉(zhuǎn)向了設(shè)備的組合以及將這些組合以云的形式提供。

Wave Computing

Wave 之父澳洲人 CTO Chris Nicol 博士的成果斐然,領(lǐng)導(dǎo)開發(fā)了 Wave 的 Compute Appliance 中的異步數(shù)據(jù)流處理器(asynchronous data flow processor)。幾年前,Metamako 的創(chuàng)始人 Charles Thomas 在加州簡(jiǎn)單介紹了我和 Chris 認(rèn)識(shí)。他們倆都曾在 NICTA 研究過(guò)無(wú)時(shí)鐘異步。這兩人都很出色。

我不確定 Wave 的設(shè)備最早是不是針對(duì)機(jī)器學(xué)習(xí)設(shè)計(jì)的,但在他們的 3RU appliance 上運(yùn)行 TensorFlow 的速度可以達(dá)到 2.9 PetaOPS/s,這實(shí)在了不起。Wave 將他們的處理器稱為 DPU,一個(gè) appliance 有 16 個(gè) DPU。Wave 使用了他們稱之為粗粒度可重構(gòu)陣列(CGRA:Coarse Grained Reconfigurable Array)的處理元素。我還不清楚 2.9 PetaOPS/s 的速度對(duì)應(yīng)多少位寬。根據(jù)他們的白皮書,其 ALU 可以執(zhí)行 1 位、8 位、16 位和 32 位計(jì)算:

算術(shù)單元是分區(qū)的。它們可以并行執(zhí)行 8 位運(yùn)算(完美適用于 DNN 推理)以及 16 位和 32 位運(yùn)算(或以上的任何組合)。也可以執(zhí)行一些 64 位運(yùn)算,而且可以使用軟件擴(kuò)展到任意精度。

關(guān)于其 appliance 中的 16 個(gè) DPU,還有一些額外的信息:

Wave Computing DPU 是一種包含了 16384 PE 的 SoC,它們被配置成了一個(gè) 32×32 集群的 CGRA。它包含了 4 個(gè) HMC(Hybrid Memory Cube)第二代接口、一個(gè) PCIe 第三代 16 通道接口和一個(gè)用于 SoC 資源管理的嵌入式 32 位 RISC 微控制器。這款 Wave DPU 可以在沒(méi)有主機(jī) CPU 時(shí)自動(dòng)執(zhí)行。

對(duì)于 TensoFlow 指令:

  • Wave DNN Library 團(tuán)隊(duì)為 TensorFlow 等工作流程中所使用的常見(jiàn) DNN 函數(shù)創(chuàng)建了預(yù)編譯的可重新定位的 kernel。它們可以被組合到 Agent 中并且可以被實(shí)例化成機(jī)器,以構(gòu)建大型的張量數(shù)據(jù)流圖和 DNN kernel。
  • ……一個(gè)可與 TensorFlow、CNTK、Caffe 和 MXNet 等機(jī)器學(xué)習(xí)工作流程交互的 session 管理器,可作為用于訓(xùn)練和推理的工作器過(guò)程(worker process)。這些工作流程可為工作器過(guò)程提供張量的數(shù)據(jù)流圖。在運(yùn)行時(shí),Wave 的 session 管理器會(huì)分析數(shù)據(jù)流圖并將這些軟件智能體放置到 DPU 芯片中,然后將它們連接起來(lái)以構(gòu)建數(shù)據(jù)流圖。這些軟件智能體會(huì)被分配用于輸入緩沖和本地存儲(chǔ)的全局內(nèi)存區(qū)域。CGRA kernel 的靜態(tài)本質(zhì)和分布式的內(nèi)存架構(gòu)可以讓一個(gè)性能模型準(zhǔn)確估計(jì)智能體的延遲。session 管理器可使用該性能模型來(lái)在智能體之間插入 FIFO 緩沖,這有助于 DPU 中通信和計(jì)算的重疊。這個(gè)可變智能體支持穿過(guò)整個(gè)圖的數(shù)據(jù)流的軟件流程,從而可以進(jìn)一步增加并發(fā)性和性能。這個(gè) session 管理器可以監(jiān)控?cái)?shù)據(jù)流圖運(yùn)行時(shí)的性能(通過(guò)監(jiān)控卡頓、緩沖區(qū)下溢出和/或上溢出),并且可以動(dòng)態(tài)地調(diào)節(jié) FIFO 緩沖區(qū)的大小以實(shí)現(xiàn)吞吐量的最大化。在附加了 DPU 的處理器中,有一個(gè)分布式運(yùn)行時(shí)管理系統(tǒng)會(huì)在運(yùn)行時(shí)安裝和卸載數(shù)據(jù)流圖的一些部分,從而平衡計(jì)算和內(nèi)存的使用量。這種在數(shù)據(jù)流計(jì)算機(jī)中的數(shù)據(jù)流圖上的運(yùn)行時(shí)重新配置還是有史以來(lái)第一次。

是的,我也覺(jué)得非???。這個(gè)平臺(tái)的驚人之處是它在架構(gòu)方面比 FPGA 更加粗粒度,因此靈活性更低,但卻很可能表現(xiàn)更好。非常有意思。

KnuEdge 的 KnuPath

在 2016 年 6 月時(shí)我在 Twitter 上談過(guò) KnuPath。那以后他們的產(chǎn)品頁(yè)面卻失蹤了。我不確定他們要把那 1 億美元如何用到他們的 MIMD 架構(gòu)上。那時(shí)候他們向我這樣描述的:每個(gè) ASIC 中有 256 個(gè)微型 DSP(即 tDSP)核以及一個(gè) ARM 控制器,適用于 35W 包絡(luò)中的稀疏矩陣處理。

它的性能未知,但他們把自己的芯片與一款當(dāng)時(shí)的英偉達(dá)芯片進(jìn)行了比較,那時(shí)候他們說(shuō)實(shí)現(xiàn)了 2.5 倍的性能。我們知道英偉達(dá)現(xiàn)在憑借 Tensor 內(nèi)核已經(jīng)提速了十倍以上,所以 KnuEdge 還要努力才能跟上節(jié)奏。MIMD 或 DSP 方法必須要得到非常好的效果才能在這一領(lǐng)域占據(jù)一席之地。時(shí)間會(huì)給我們答案。

英特爾的 Nervana

Nervana Systems 曾經(jīng)除了開發(fā)他們的 Nervana Engine ASIC,還開發(fā)著一種 GPU/軟件方法,后來(lái)英特爾收購(gòu)了這家公司。性能比較方面還不清楚。英特爾也在規(guī)劃通過(guò)一個(gè) Knights Crest 項(xiàng)目將其集成到 Phi 平臺(tái)中。NextPlatform 認(rèn)為其 2017 年在 28nm 節(jié)點(diǎn)上的目標(biāo)是在某個(gè)位寬的運(yùn)算速度達(dá)到 55 TOPS/s。英特爾還安排一個(gè) NervanaCon,將在 12 月份舉辦,所以那時(shí)候我們也許將能看到他們的第一批成果。

地平線機(jī)器人

這家中國(guó)創(chuàng)業(yè)公司正在研發(fā)一種大腦處理單元(BPU:Brain Processing Unit)。余凱博士是正規(guī)軍出身,他曾是百度深度學(xué)習(xí)研究院的負(fù)責(zé)人。今年早些時(shí)候,一段 YouTube 視頻演示了基于 Arria 10 FPGA 的 BPU 仿真:

https://youtu.be/GI9U9lUFaDo。目前關(guān)于這一平臺(tái)的公開消息還很少。

Eyeriss

Eyeriss 是 MIT 的一個(gè)項(xiàng)目,開發(fā)出了一款具有出色原始性能表現(xiàn)的 64nm ASIC。在 AlexNet 上,這款芯片的速度大約是英偉達(dá) TK1 的一半。其優(yōu)勢(shì)在于借助于其行固定(row stationary)方法,僅需要一個(gè) 278mW 的可重新配置加速器就能實(shí)現(xiàn)這樣中規(guī)中矩的性能。贊。

Graphcore

去年 Graphcore 拿到了 3000 萬(wàn)美元的 A 輪融資,以開發(fā)他們的智能處理單元(IPU: Intelligence Processing Unit)。他們的網(wǎng)站還缺少細(xì)節(jié),只是給出了一些亮眼的事實(shí),比如多于 14000 個(gè)獨(dú)立的處理器線程和大于 100 倍的內(nèi)存帶寬。根據(jù) NextPlatform 報(bào)道的零星信息,其在一塊芯片上具有多于 1000 個(gè)真實(shí)內(nèi)核,并且采用了定制的互連方式。它的 PCIe 板具有一個(gè) 16 個(gè)處理器的元件。聽起來(lái)似乎是數(shù)據(jù)流。拋開公關(guān)的言論,這個(gè)團(tuán)隊(duì)確實(shí)有很強(qiáng)的背景,而且投資者也不并不傻,所以就拭目以待吧。

Tenstorrent

Tenstorrent 是加拿大多倫多的一家小創(chuàng)業(yè)公司,它宣稱在深度學(xué)習(xí)的效率上實(shí)現(xiàn)了一個(gè)數(shù)量級(jí)的提升,和大多數(shù)公司一樣,還沒(méi)有什么公開的細(xì)節(jié),但該公司入選了 Cognitive 300 榜單。

Cerebras

Cerebras 值得一提,因?yàn)樗玫搅?Benchmark 的支持,而且其創(chuàng)始人是 SeaMicro 的 CEO。它似乎已經(jīng)融資 2500 萬(wàn)美元了,而且仍然處于隱身模式。

Thinci

Thinci 正在美國(guó)薩克拉門托開發(fā)視覺(jué)處理器,并且在印度也有員工。他們宣稱即將推出他們的第一款硅芯片 Thinci-tc500,而且已經(jīng)開始進(jìn)行標(biāo)準(zhǔn)評(píng)測(cè)和贏得客戶了。但除了「一切都并行處理」之外,我們所知甚少。

Koniku

Koniku 的網(wǎng)站正在倒計(jì)時(shí),現(xiàn)在還有 20 幾天。我已經(jīng)等不及了。他們沒(méi)有融到多少錢,而看過(guò)它們?cè)诟2妓股系倪@個(gè)視頻之后(https://goo.gl/VA1PJx),你很可能也不得不相信他們,但你也無(wú)法預(yù)料究竟會(huì)如何。利用生物細(xì)胞肯定是不一樣的。聽起來(lái)就像是一個(gè)科研項(xiàng)目,但他們這樣說(shuō):

「我們是一個(gè)企業(yè)。我們不是一個(gè)科研項(xiàng)目?!瓜轮軐⒃诰S也納的 Pioneers Festival 上發(fā)表演講的 Agabi 這樣說(shuō),「今天有些需求是硅所不能滿足的,而我們可以通過(guò)我們的系統(tǒng)提供?!?/p>

Koniku 提供的核心是所謂的神經(jīng)元?dú)?neuron-shell),這家創(chuàng)業(yè)公司稱其內(nèi)部可以控制神經(jīng)元彼此通信的方式,加上一種正在申請(qǐng)專利的電極,就可以在神經(jīng)元上讀寫信息。所有這些都可以裝在一個(gè) iPad 大小的設(shè)備里,他們還希望能在 2018 年之前將其減小到一枚五美分硬幣大小。

Adapteva

Adapteva 是我最喜歡的一家小技術(shù)公司,正如你在之前文章《Adapteva tapes out Epiphany-V:一款 1024 核 64 位 RISC 處理器》:https://goo.gl/6ZH7JP。去年年底時(shí) Andreas Olofsson 拿出了他的 1024 核芯片,我們都等著看它的性能表現(xiàn)。Epiphany-V 有用于深度學(xué)習(xí)的新指令,我們必須要看看這種帶有 64MB 片上內(nèi)存的更少內(nèi)存控制器的設(shè)計(jì)是否具有合適的擴(kuò)展能力。Andrea 的設(shè)計(jì)和構(gòu)建的出色效率可能能讓我們真正負(fù)擔(dān)得起這種芯片,所以讓我們希望它有良好的表現(xiàn)吧。

Knowm

Known 研究的是 Anti-Hebbian and Hebbian(AHaH)可塑性和憶阻器。這里有篇覆蓋這一主題的論文《AHaH 計(jì)算:從 Metastable Switches 到 Attractors 到機(jī)器學(xué)》:https://doi.org/10.1371/journal.pone.0085175。這對(duì)我來(lái)說(shuō)有點(diǎn)太高級(jí)了。簡(jiǎn)單看了看,我看不出這項(xiàng)技術(shù)和胡言亂語(yǔ)的區(qū)別,但看起來(lái)確實(shí)科學(xué)味道十足。我需要親眼看到才能相信。神經(jīng)憶阻式處理器(neuromemristive processor)的思想是很有趣的。我早上確實(shí)需要一個(gè)好的流行術(shù)語(yǔ)。

Mythic

Mythic 的一款電池驅(qū)動(dòng)的神經(jīng)芯片具有低 50 倍的功耗。目前還看不到太多真正的細(xì)節(jié)。這款芯片大約紐扣大小,但大多數(shù)芯片不都這樣嗎?

「Mythic 的平臺(tái)能在紐扣大小的芯片上提供桌面 GPU 的性能?!?/p>

也許這又是一款適合無(wú)人機(jī)和手機(jī)的芯片,很可能被用在手機(jī)中,也可能被排除在外。

高通

手機(jī)顯然是機(jī)器學(xué)習(xí)硬件的一大用武之地。我們希望能夠識(shí)別狗的品種、花朵、樹葉、癌癥痣、翻譯標(biāo)識(shí)、理解口語(yǔ)等等。我們口袋里的超級(jí)計(jì)算機(jī)愿意用上它能得到的所有幫助,以便能邁入感知時(shí)代。高通一直以來(lái)都在鼓搗機(jī)器學(xué)習(xí),推出了 Zeroth SDK 和 Snapdragon 神經(jīng)處理引擎(NPE)。這種 NPE 顯然在高通所用的 Hexagon DSP 上效果良好。

Hexagon DSP 已經(jīng)遠(yuǎn)遠(yuǎn)不止是一個(gè)非常廣泛的并行平臺(tái)了,Yann LeCun 已經(jīng)證實(shí)高通和 Facebook 正在合作開發(fā)一種更好的方法,參見(jiàn) Wired 的文章《業(yè)界 | 谷歌 TPU 之后還有高通,人工智能芯片競(jìng)賽已經(jīng)展開》:

最近,高通已經(jīng)開始制造執(zhí)行神經(jīng)網(wǎng)絡(luò)的專用芯片,這條消息來(lái)自 LeCun,因?yàn)?Facebook 正幫助高通開發(fā)機(jī)器學(xué)習(xí)相關(guān)技術(shù),所以他對(duì)高通的計(jì)劃很了解;高通技術(shù)副總裁 Jeff Gehlhaar 證實(shí)了這個(gè)項(xiàng)目,他說(shuō):『在原型設(shè)計(jì)和開發(fā)方面,我們還有很長(zhǎng)的路要走?!?/td>

也許我們很快就會(huì)看到 Kryo CPU、Adreno GPU、Hexagon DSP 和 Hexagon Vector Extensions 之外的其它東西。對(duì)于這一領(lǐng)域的創(chuàng)業(yè)公司來(lái)說(shuō),和高通的機(jī)器學(xué)習(xí)競(jìng)爭(zhēng)將會(huì)艱難無(wú)比。

Pezy-SC 和 Pezy-SC2

這兩者是 Pezy 開發(fā)的 1024 核和 2048 核處理器。Pezy-SC 1024 核芯片可以驅(qū)動(dòng) 2015 年 Green500 超級(jí)計(jì)算機(jī)榜單的前三名的系統(tǒng)。Pezy-SC2 是現(xiàn)在已經(jīng)開始提供的后續(xù)芯片,我在 6 月份也做過(guò)關(guān)于它的演講,但相關(guān)細(xì)節(jié)還很少,不過(guò)仍然很吸引人:

PEZY-SC2 HPC Brick:?jiǎn)蝹€(gè)機(jī)箱中有 32 個(gè)帶有 64GB DDR4 DIMM(2.1 PetaFLOPS(DP))的 Pezy-SC2 模塊卡,速度可達(dá) 6.4 Tb/s.

不知道 2048 個(gè) MIMD MIPS Warrior 64 位核的機(jī)器能做到什么?在 6 月份的 2017 年 Green500 榜單中,一個(gè)英偉達(dá) P100 系統(tǒng)拿到了頭把交椅,而排名第 7 的是一個(gè) Pezy-SC2 系統(tǒng)。所以看起來(lái)這款芯片還活著,但相關(guān)細(xì)節(jié)卻很少。Motoaki Saito(齊藤元章)當(dāng)然值得一看。

Kalray

盡管做了很多承諾,但 Kalray 的芯片還沒(méi)有超過(guò) 256 核,我在 2015 年的一篇文章就談到:https://goo.gl/pxqn7Z。Kalray 宣傳自己的產(chǎn)品說(shuō)是適合嵌入式自動(dòng)駕駛汽車應(yīng)用,但我覺(jué)得其目前產(chǎn)品架構(gòu)的形式并不是一種完美的 CNN 平臺(tái)。Kalray 有一個(gè) Kalray Neural Network(KaNN)軟件包并且宣稱有比 GPU 更好的效率,在芯片上能實(shí)現(xiàn)高達(dá) 1 TFlop/s 的速度。

隨著即將到來(lái)的產(chǎn)品更新,Kalray 的神經(jīng)網(wǎng)絡(luò)財(cái)富可能還會(huì)提升,就在這個(gè)月 Kalray 完成了新一輪 2600 萬(wàn)美元的融資。他們新的 Coolidge 處理器預(yù)計(jì)將在 2018 年年中上市,它會(huì)帶有 80 或 160 個(gè)核,另外還有 80 或 160 個(gè)為視覺(jué)和深度學(xué)習(xí)優(yōu)化的協(xié)處理器。

這在他們的多于 1000 核的方法上有了很大的改變,而我認(rèn)為這是最明智的。

IBM TrueNorth

TrueNorth 是 IBM 的神經(jīng)形態(tài) CMOS ASIC,是與 DARPA 的 StNAPSE 項(xiàng)目一起開發(fā)的。

這是一種單個(gè)芯片設(shè)計(jì)上的多核處理器網(wǎng)絡(luò),具有 4096 個(gè)核,每個(gè)核模擬 256 個(gè)可編程的硅「神經(jīng)元」,總共就超過(guò)了 100 萬(wàn)個(gè)神經(jīng)元。另外,每個(gè)神經(jīng)元還有 256 個(gè)可編程的「突觸」,信號(hào)可以在這些突觸之間傳遞。因此,可編程突觸的總是超過(guò)了 2.68 億(2^28)。在基本構(gòu)建模塊方面,它的晶體管數(shù)量為 54 億。因?yàn)榇鎯?chǔ)、計(jì)算和通信都是在這 4096 個(gè)神經(jīng)突觸核中各自處理的,所以 TrueNorth 避開了馮·諾依曼架構(gòu)的瓶頸,而且能效非常高,功耗為 70 mW,大約是傳統(tǒng)微處理器的功率密度的萬(wàn)分之一(來(lái)自維基百科)。

IBM 之前還在批評(píng)脈沖神經(jīng)網(wǎng)絡(luò)(spiking neural network)無(wú)法適配深度學(xué)習(xí),現(xiàn)在 IBM 開發(fā)了一種在 TureNorth 上運(yùn)行 CNN 的新算法。

這些神經(jīng)元不會(huì)在每個(gè)周期內(nèi)都放電,脈沖神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元必須逐漸積累它們的電勢(shì),然后才能放電……深度學(xué)習(xí)專家普遍認(rèn)為脈沖神經(jīng)網(wǎng)絡(luò)在深度學(xué)習(xí)上沒(méi)有效率——至少和卷積神經(jīng)網(wǎng)絡(luò)比起來(lái)是這樣。Facebook 人工智能研究院主任和深度學(xué)習(xí)先驅(qū) Yann LeCun 曾經(jīng)批評(píng)過(guò) IBM 的 TureNorth 芯片,因?yàn)樗饕С置}沖神經(jīng)網(wǎng)絡(luò)……

……這種神經(jīng)形態(tài)芯片不會(huì)太激動(dòng)人心,因?yàn)樗鼈冏⒅氐拿}沖神經(jīng)網(wǎng)絡(luò)在深度學(xué)習(xí)領(lǐng)域并不受歡迎。

為了讓 TrueNorth 芯片很好地契合深度學(xué)習(xí),IBM 不得不開發(fā)了一種新算法,讓卷積神經(jīng)網(wǎng)絡(luò)可以在這款神經(jīng)形態(tài)計(jì)算硬件上很好地運(yùn)行。這種組合方法實(shí)現(xiàn)了 IBM 所謂的「接近當(dāng)前最佳」的分類準(zhǔn)確度,實(shí)驗(yàn)涉及了視覺(jué)和語(yǔ)音挑戰(zhàn)賽方面的 8 個(gè)數(shù)據(jù)集。在最好的情況下,它們的準(zhǔn)確度達(dá)到了 65% 到 97%。

當(dāng)只使用一塊 TrueNorth 芯片時(shí),它只在這 8 個(gè)數(shù)據(jù)集中的 1 個(gè)數(shù)據(jù)集上超越了當(dāng)前最佳的準(zhǔn)確度。但如果使用多達(dá) 8 塊芯片,IBM 的研究者可以極大提升這款硬件在深度學(xué)習(xí)挑戰(zhàn)上的準(zhǔn)確度。這使 TureNorth 可以在其中 3 個(gè)數(shù)據(jù)集上媲美或超越當(dāng)前最佳的準(zhǔn)確度。

這個(gè) TureNorth 測(cè)試也做到了每秒處理 1200 到 2600 視頻幀。這意味著單個(gè) TureNorth 芯片就能實(shí)時(shí)檢測(cè)來(lái)自多達(dá) 100 個(gè)同時(shí)工作的相機(jī)的數(shù)據(jù)的模式……(來(lái)自 IEEE Spectrum)

TrueNorth 的功率效率非常出色,所以非常值得考慮。

Brainchip 的脈沖神經(jīng)元自適應(yīng)處理器(SNAP:Spiking Neuron Adaptive Processor)

SNAP 不能做深度學(xué)習(xí),這只是一個(gè)源于好奇心的項(xiàng)目,還沒(méi)有實(shí)際落地成 CNN 工程解決方案,至少現(xiàn)在還沒(méi)有。如果你想探索這條路,IBM 的隨機(jī)相變神經(jīng)元(stochastic phase-change neurons)似乎更有意思。

蘋果的神經(jīng)引擎(Neural Engine)

到底會(huì)不會(huì)有?彭博社報(bào)道稱這會(huì)是一款次級(jí)處理器,但沒(méi)有什么細(xì)節(jié)信息。對(duì)蘋果來(lái)說(shuō),這不僅是一個(gè)重要領(lǐng)域,而且也有助于與高通的競(jìng)爭(zhēng)。

其它

1. 寒武紀(jì)(Cambricon)——中國(guó)科學(xué)院在芯片上投入的 140 萬(wàn)美元。它是一個(gè)用于神經(jīng)網(wǎng)絡(luò)的指令集架構(gòu),具有數(shù)據(jù)級(jí)的并行、自定義向量/矩陣指令、片上 scratchpad memory。宣稱速度是 x86 CPU 的 91 倍,是 K40M 的 3 倍,且峰值功率僅有 1%,即 1.695W。參閱這兩篇論文:

  • Cambricon-X:一個(gè)用于稀疏神經(jīng)網(wǎng)絡(luò)的加速器: http://cslt.riit.tsinghua.edu.cn/mediawiki/images/f/f1/Cambricon-X.pdf
  • Cambricon:一個(gè)用于神經(jīng)網(wǎng)絡(luò)的指令集架構(gòu) s:http://dl.acm.org/citation.cfm?id=3001179

2. 前谷歌員工創(chuàng)立的 Groq Inc.,也許是另一種 TPU?

3. Aimotive:https://aimotive.com/

4. Deep Vision 正在開發(fā)用于深度學(xué)習(xí)的低功耗芯片,也許這兩篇?jiǎng)?chuàng)始人的論文能提供一點(diǎn)線索:

  • Convolution Engine: Balancing Efficiency & Flexibility in Specialized Computing [2013]:http://csl.stanford.edu/~christos/publications/2013.convolution.isca.pdf
  • Convolution Engine: Balancing Efficiency and Flexibility in Specialized Computing [2015]:http://csl.stanford.edu/~christos/publications/2015.convolution_engine.cacm.pdf

5. DeepScale

6. Reduced Energy Microsystems 正在開發(fā)用于 CNN 推理的低功耗異步芯片。據(jù) TechCrunch 報(bào)道,REM 是 Y Combinator 第一個(gè) ASIC 領(lǐng)域的風(fēng)險(xiǎn)投資。

7. Leapmind 也很忙。

FPGA

微軟已經(jīng)站隊(duì) FPGA 了。Wired 這篇文章說(shuō)得很好:《深度 |《連線》長(zhǎng)文揭秘微軟 Project Catapult:人工智能時(shí)代押注 FPGA》。

Bing 占據(jù)著世界上 20% 的桌面搜索市場(chǎng)和 6% 的移動(dòng)手機(jī)市場(chǎng),在 Bing 上,這個(gè)芯片能幫助 Bing 適應(yīng)新品種的人工智能:深度神經(jīng)網(wǎng)絡(luò)。

我對(duì)這種方法也有些興趣。賽靈思和英特爾(收購(gòu)了 Altera)的 FPGA 是很強(qiáng)大的引擎。賽靈思自然宣稱他們的 FPGA 是對(duì) INT8 最好的,他們的一份白皮書里面包含了下面的幻燈片:

這兩家供應(yīng)商都很支持使用他們的 FPGA 做機(jī)器學(xué)習(xí):

  • Xilinx - Acceleration Zone:https://goo.gl/KheG5W
  • Intel FPGA OpenCL(https://goo.gl/S62fMA)和 Solutions(https://goo.gl/zkYyXB)

盡管 FPGA 單位功耗的性能是很出色的,但這些供應(yīng)商的更大型的芯片的售價(jià)卻長(zhǎng)時(shí)間以來(lái)都高得嚇人。賽靈思的 VU9P 在 Avnet 上的售價(jià)超過(guò) 5 萬(wàn)美元。

尋找價(jià)格和能力之間的平衡點(diǎn)是 FPGA 的主要難題。

FPGA 方法的一大優(yōu)勢(shì)是可以用來(lái)制定一些非常出色的架構(gòu)決策。比如如果因?yàn)?HBM,你想在板上 DRAM 壓縮并且實(shí)時(shí)地解壓,然后希望借此改善你的內(nèi)存的浮點(diǎn)數(shù)據(jù)流,如果你足夠努力,你能找到解決方案。參閱《用于基于 FGPA 的高性能計(jì)算的浮點(diǎn)數(shù)值數(shù)據(jù)流的帶寬壓縮(Bandwidth Compression of Floating-Point Numerical Data Streams for FPGA-Based High-Performance Computing)》:http://dl.acm.org/citation.cfm?id=3053688。

這種動(dòng)態(tài)的架構(gòu)敏捷性(architectural agility)很困難,幾乎無(wú)法用其它任何方法實(shí)現(xiàn)。

架構(gòu)選擇太多可能也是一個(gè)問(wèn)題,但我自己還是挺喜歡這個(gè)問(wèn)題的。這篇論文很不錯(cuò)《使用 TILT 減少 Soft Scalar CPU 和定制硬件之間的性能差距(Reducing the Performance Gap between Soft Scalar CPUs and Custom Hardware with TILT)》:http://dl.acm.org/citation.cfm?id=3079757,其中研究了定制硬件和 FPGA 處理器(帶有基于 FPGA 的水平微編碼的計(jì)算引擎)的性能差距,這讓人想起了古老的 DISC 和很多個(gè)月前的離散指令集計(jì)算機(jī)(discrete instruction set computer)。

誰(shuí)是贏家?

在這樣的競(jìng)爭(zhēng)中,預(yù)測(cè)誰(shuí)是贏家是傻瓜的舉動(dòng)。高通憑借其手機(jī)市場(chǎng)的主導(dǎo)地位,可以輕松進(jìn)入贏家榜單。蘋果不管做什么都會(huì)成功的。英偉達(dá)的 V100 有 Tensor 單元,也基本上贏了。我不確定我能否看到谷歌的 TPU 在無(wú)休止的長(zhǎng)期硅谷競(jìng)賽中幸存下來(lái),盡管目前它的性能很出色。我很喜歡 FPGA 方法,但我也不禁想他們應(yīng)該以遠(yuǎn)遠(yuǎn)更低的價(jià)格發(fā)布 DNN 版本,這樣才不會(huì)被大眾漠視。英特爾和 AMD 會(huì)做自己的協(xié)處理器。因?yàn)樗兄饕婕叶紖?zhàn)了,所以其中很多都會(huì)支持標(biāo)準(zhǔn)的工具包,比如 TensorFlow,這樣我們就不必太在意規(guī)格了,關(guān)心基準(zhǔn)就可以了。

在更小型的玩家中,我很喜歡而且支持的是 Adapteva 方法,我認(rèn)為他們的內(nèi)存架構(gòu)可能并不適合 DNN。我希望我錯(cuò)了。

Wave Computing 可能是我繼 FPGA 之后最喜歡的方法。他們的整個(gè)異步數(shù)據(jù)流方法是非常棒的。REM 似乎也在做類似的事情;但我認(rèn)為他們可能太遲了。Wave Computing 能否在面對(duì)所有競(jìng)爭(zhēng)對(duì)手時(shí)繼續(xù)保持領(lǐng)先嗎?也許只要他們的異步 CGRA 有一個(gè)本質(zhì)優(yōu)勢(shì),就可以。盡管我不確定他們是否只要 DNN 上的成功,因?yàn)樗麄兊募夹g(shù)有更加廣泛的應(yīng)用能力。

神經(jīng)形態(tài)脈沖處理器也許現(xiàn)在暫時(shí)可以忽略,但也可以保持關(guān)注,因?yàn)樗鼈冇泻艽蟮墓膬?yōu)勢(shì)。量子計(jì)算反正會(huì)讓所有這些都稍遜風(fēng)騷。IBM 的 TrueNorth 可能會(huì)是個(gè)例外,因?yàn)樗粌H能執(zhí)行脈沖網(wǎng)絡(luò),還能有效地運(yùn)行 DNN。

原文:https://meanderful.blogspot.jp/2017/06/fpgas-and-ai-processors-dnn-and-cnn-for.html

【本文是專欄機(jī)構(gòu)“機(jī)器之心”的原創(chuàng)譯文,微信公眾號(hào)“機(jī)器之心( id: almosthuman2014)”】


本文標(biāo)題:從GPU、TPU到FPGA及其它:一文讀懂神經(jīng)網(wǎng)絡(luò)硬件平臺(tái)戰(zhàn)局
瀏覽地址:http://www.dlmjj.cn/article/cojihpp.html