Arm的NPU究竟有和高深之處

2020-02-07 22:29:08

來源：智匯工業(yè)

點擊：1290

A⁺ A^-

關鍵詞：Arm Ethos NPU系列

領先的移動SoC設計人員多年來一直在其SoC中集成專用NPU。去年底，Arm也帶來了Ethos NPU系列。此舉是Arm拓展AI市場的最新舉措。該公司在新的Ethos NPU系列下推出了三個初始IPEthos-N37，Ethos-N57和Ethos-N77。這三個初始IP旨在覆蓋相當多的設備。顧名思義，每個功能都比前一個功能越來越強大。

1581085889(1).jpg

三個NPU使用相同的微體系結構構建，但配置稍有不同，您將在稍后看到。下面的Arm可視化圖描繪了NPU正在工作的各種市場和約束。

在低端是Ethos-N37，其目標是工作負載最輕的設備，其峰值計算性能高達大約1 TOPS，而需要很少的DRAM帶寬（約為3 GB / s或更低）；

Ethos-N57涵蓋了更復雜的設備，例如大多數(shù)智能家居設備以及一些主流智能手機SoC。N57設計為具有更高的內(nèi)存帶寬，并可以提供大約2 TOPS的性能；

最后是Ethos-N77。這是系列中最強的產(chǎn)品，目標是性能高達4 TOPS的市場，并且具有約5 TOPS / W的較高功率效率。N77專為高級和中端AR / VR設備而設計，盡管它具有性能增強功能，但您仍需要更強大的功能。為了獲得更高的性能，需要更高的內(nèi)存帶寬（內(nèi)存帶寬需要高達8 GB / s甚至更高）。

值得指出的是，這三個IP之間有很多重疊。N57可以覆蓋N37范圍的上部以及N77范圍的下半部分。與N77相同。這為SoC設計人員提供了一些擺動空間，使其可以進行自己的設計。值得指出的是，這三個IP之間有很多重疊。N57可以覆蓋N37范圍的上部以及N77范圍的下半部分。與N77相同。這為SoC設計人員提供了一些空間，使其可以進行自己的設計。

1581085955(1).jpg

Ethos系列的核心是Arm的ML處理器（MLP）。MLP是一種干凈的（clean-sheet ），底層（ground-up）的微體系結構，用于加速機器學習，重點是CNN和RNN。MLP實際上使用了相當簡單的設計，這正是我們期望將出售給設計人員的IP中所期望的。MLP的主要組件是控制單元，DMA，廣播網(wǎng)絡和計算引擎。您可能已經(jīng)猜到了，主要動作發(fā)生在計算引擎中。四個計算引擎的每個群集都分組為一個“四元組”?？刂茊卧獏f(xié)調(diào)整個計算引擎以及DMA引擎的整個神經(jīng)網(wǎng)絡執(zhí)行，該DMA引擎了解神經(jīng)網(wǎng)絡映射并可以確保數(shù)據(jù)在需要時到達。

1581086018(1).jpg

我們可以以多種配置來實現(xiàn)MLP。兩個主要控制是每個計算引擎中的SRAM庫大小和計算引擎的數(shù)量。對于他們當前的設計，MLP可以具有從從單個四核中的單個計算引擎到帶有十六個計算引擎的四個四核等多個選擇。在每個計算引擎中，您都有一塊SRAM，用于存儲輸入和輸出特征圖以及權重?？梢詮?4 KiB一直配置到256 KiB。無論配置如何，控制單元和DMA始終相同。

1581086080(1).jpg

Ethos-N77本質(zhì)上是完整的MLP配置。它具有四個quads 和16個計算引擎，并具有兩種可能的SRAM配置–：64 KiB或256 KiB。同樣，Ethos-N53包含四個quads ，總共八個計算引擎。N53每個CE帶有固定的64 KiB SRAM存儲區(qū)。Ethos-N37是性能最低的SKU，只有一個quad，總共只能容納四個具有固定的128 KiB容量SRAM庫的計算引擎。

1581086135(1).jpg

計算引擎中的兩個有趣的組件是MAC計算引擎（MCE）和可編程層引擎（PLE）。MCE包含高效的固定功能MAC單元，而PLE包含靈活的可編程矢量引擎。流程相對簡單。輸入activation tensor 和權重一起傳遞到MCE。計算之后，將結果傳遞到PLE進行后處理和可能需要的其他各種操作。沒有復雜的控制，因為其中很多控制權交給了編譯器，該編譯器執(zhí)行靜態(tài)調(diào)度，對SRAM庫進行預分區(qū)并壓縮功能圖和權重。

在MCE內(nèi)則是一組八個MAC單元。每個MAC單元為16位寬。換句話說，每個MAC單元每個周期可以執(zhí)行16個8位點積運算（dot product operations ）?？傮w而言，每個計算引擎有256個OP /峰值性能周期。順便說一下，這里的操作都是8位寬的，累加了32b。MLP確實支持16位操作，但著將使您的吞吐量減少4倍（即，每個周期64個OP）。下表列出了每個Ethos SKU的最高理論性能。當然，實際的工作負載性能將取決于這些MAC的利用率。需要指出的是，所有三個SKU都可以達到相同的1 GHz最大頻率。

1581086187(1).jpg

雖然N77的最高TOPS為4.1 TOPS，但實際的SoC并不需要達到該性能水平。相反，可以將MLP的多個實例集成到SoC中，以進一步提高性能。因此，例如，至少在理論上支持使用CCN-500互連最多擴展到八個MLP，而使用更新的CMN-600網(wǎng)格互連最多擴展到100個MLP。

除了MCE，計算引擎內(nèi)的其他主要組件是可編程層引擎（PLE）。PLE實際上比MCE更強大，并且因為它是可編程的而具有更大的靈活性，盡管它在處理數(shù)百萬次重復的MAC操作時在原始的功率效率競爭中有所損失。PLE是成熟的Cortex-M處理器，在其中還包含了向量和NN擴展。那意味著Ethos-N77在內(nèi)部合并了16種Cortex-M向量處理器。

它采用專用的16通道矢量引擎協(xié)處理器模型進行設計。PLE主要設計用于MCE后處理，實現(xiàn)一些不太常見的功能。但是由于這本身就是一個功能強大的矢量引擎，因此在有或沒有MCE的幫助下，它實際上都可以直接對SRAM數(shù)據(jù)進行操作。PLE的可編程性使Arm軟件團隊能夠快速適應新的AI模型和功能。編譯器工具鏈還提供了我們期望現(xiàn)代NPU能做的許多其他優(yōu)化。由于編譯器會提前對SRAM進行分區(qū)，因此它會執(zhí)行激活和權重壓縮，這有助于在整個設計中稍微減少帶寬。此外，還有針對稀疏性的輕量優(yōu)化。數(shù)據(jù)路徑將選通為零，從而節(jié)省了一點功耗。

1581086244(1).jpg

(審核編輯: 智匯婷婷)

免费色播,亚洲国产欧美国产第一区二区三区,毛片看,日本精品在线观看视频,国产成人精品一区二区免费视频,日本黄色免费网站,一级毛片免费

Arm的NPU究竟有和高深之處

點擊排行

專題