當(dāng)今社會,新興技術(shù)和應(yīng)用不斷涌現(xiàn),無論是以數(shù)據(jù)中心和云計算為代表的高性能計算應(yīng)用,還是以手機(jī)為代表的消費(fèi)類應(yīng)用,對處理器算力的需求都越來越高,且要處理的信息也越來越復(fù)雜,單一類型的架構(gòu)和處理器已經(jīng)無法勝任。既要保證算力和性能,又要具備多類型任務(wù)的處理能力,還要控制好功耗和成本,滿足以上要求的異構(gòu)計算已然成為解決算力瓶頸的重要方式,為計算帶來全新可能性。近日,英特爾研究院副總裁、英特爾中國研究院院長宋繼強(qiáng)接受了《中國電子報》記者獨(dú)家專訪,發(fā)表了對異構(gòu)計算未來發(fā)展方向的看法。
異構(gòu)計算面臨三大瓶頸
《中國電子報》:異構(gòu)計算當(dāng)前的市場發(fā)展情況是怎樣的?有哪些亟待突破的技術(shù)難點(diǎn)?
宋繼強(qiáng):異構(gòu)計算目前面臨幾個瓶頸。一是技術(shù)設(shè)計流程的協(xié)同問題。如果做一個不帶Chiplet先進(jìn)封裝的芯片,如SoC,所有的設(shè)計都可以在前端設(shè)計軟件里完成,再到后端工藝流片。但如果未來這個芯片要與其他不同廠商的芯粒一起互聯(lián)互通,協(xié)同工作,為了保證電和傳輸通路不出現(xiàn)問題,在開始協(xié)同工作前,可能需要進(jìn)行TSV(硅通孔)。這就需要提前知道這個芯片是否要打孔?怎么打?留多少空間?這些問題都會影響到包括后端設(shè)計軟件和前端設(shè)計的整個設(shè)計流程,和現(xiàn)在的設(shè)計流程不太一樣。
二是需要統(tǒng)一各個廠商芯粒之間的互連標(biāo)準(zhǔn)。未來全球各大芯片制造商、科技巨頭的芯粒可能會集成在一個芯片上,目前它們相互之間的互連標(biāo)準(zhǔn)并不統(tǒng)一,不同的廠商有不同的設(shè)計標(biāo)準(zhǔn),所能支持的速率、間距、功耗等都不一致,各個廠商之間還并沒有做好互聯(lián)互通的準(zhǔn)備。最近英特爾攜手其他企業(yè),推出了UCIe標(biāo)準(zhǔn),未來就可以把不同廠商的芯粒連到一起,形成一個符合要求的、大的、封裝級的集成芯片。
三是軟件層面要過關(guān)。有的芯片需要編程才能更好地使用,這就是英特爾跨平臺、開放的編程模型oneAPI能帶來的好處,不同廠商的計算芯片之間怎么樣去做出最好的I/O、內(nèi)存的通道,這些在英特爾oneAPI的底層庫里都有體現(xiàn)。
綜合來說,我覺得異構(gòu)計算在技術(shù)方面、互連方面和軟件方面都面臨瓶頸,仍然沒有達(dá)到未來的要求,所以英特爾oneAPI仍將繼續(xù)演進(jìn)。
《中國電子報》:異構(gòu)計算是否會成為下一個全球競爭點(diǎn)?英特爾未來在異構(gòu)計算方面會有怎樣的布局呢?
宋繼強(qiáng):異構(gòu)已經(jīng)成為了新的全球競爭點(diǎn)。現(xiàn)在主流的芯片供應(yīng)商,都想把異構(gòu)的布局變得更加完整。想要在異構(gòu)競爭中脫穎而出:一是要有不同架構(gòu)積累;二是在不同的工藝節(jié)點(diǎn)上有不同的資源可以去利用;三是提前布局和規(guī)劃封裝級別的技術(shù)。異構(gòu)需要布局架構(gòu)、生產(chǎn)工藝以及封裝技術(shù),這都是為了建立未來更加完整的異構(gòu)生態(tài)。因?yàn)樯鷳B(tài)里會包含不同架構(gòu)的IP模塊或芯粒模塊,在不同的制程工藝上,能以最好的性價比去生產(chǎn)這些模塊,還要能夠用最標(biāo)準(zhǔn)的方法把它們串連起來;四是需要有一套方便且好用的軟件,只需上層應(yīng)用者指定功能需求,下層就可以隨著異構(gòu)變化自動取遷移。
異構(gòu)是“東數(shù)西算”的底層支撐
《中國電子報》:您覺得“東數(shù)西算”工程會為芯片產(chǎn)業(yè)帶來什么樣的作用?您對“東數(shù)西算”工程有怎樣的實(shí)施建議呢?
宋繼強(qiáng):“東數(shù)西算”是非常棒的工程。首先,這個工程非常精準(zhǔn)地看到了未來在數(shù)字化轉(zhuǎn)型之后,所需要的大量算力,而算力本身又分成很多種,并不是建一個大的計算中心就能解決所有問題。所以要先將算力網(wǎng)給搭建起來,按照數(shù)據(jù)的產(chǎn)生和算力的使用情況,基本上就形成了一個比較完美的布局。
“東數(shù)西算”希望能實(shí)現(xiàn)節(jié)省電力,因?yàn)闁|部應(yīng)用較多,產(chǎn)生的數(shù)據(jù)就會很多,但東部的電、地等開銷較大,建數(shù)據(jù)中心的成本高。西部用電用地便宜、綠色,更適合建大的數(shù)據(jù)中心。把數(shù)據(jù)從東部送過去算好了之后再送回來,這個概念非常好,但中間也會遇到一些問題。因?yàn)閼?yīng)用是多樣化的,有一些應(yīng)用可以支撐傳輸?shù)难訒r,有一些應(yīng)用則無法支撐。
所以在建設(shè)前需要考慮幾個基礎(chǔ)前提:一是要把算力網(wǎng)絡(luò)的綜合延遲降低,面對多種不同的算力,如何將它連好,連好之后如何快速、靈活地遷移負(fù)載;二是為了滿足實(shí)時性的要求,比如做需要支持實(shí)時支付、支持智能駕駛的業(yè)務(wù),就不能把數(shù)據(jù)傳到西部算完了再回來,所有還得在最發(fā)達(dá)的數(shù)據(jù)產(chǎn)生的地方去建數(shù)據(jù)中心,尤其像長三角地區(qū)等應(yīng)用量大的地區(qū)。這與英特爾此前提出的邊緣計算是一個概念,不可能什么計算都依賴遠(yuǎn)處的算力支持,有一些還是需要劃分在本地區(qū)做運(yùn)算。
“東數(shù)西算”是一個非常好的構(gòu)思和非常大的概念,在它具體實(shí)施的時候,要考慮區(qū)分不同的工作負(fù)載、網(wǎng)絡(luò)延遲以及如何在未來開發(fā)這方面的應(yīng)用時更加透明。比如這個應(yīng)用需要什么樣的加速,需要多長時間的延遲,它能否進(jìn)行自動分配。如果未來編程人員還要去想:我需要保證QOS(服務(wù)質(zhì)量)到什么地步?如果保證不了應(yīng)該怎么辦?這些問題會給編程人員帶來很大的負(fù)擔(dān)。假設(shè)編程人員把需求提出來時,系統(tǒng)就能自動滿足,這對軟硬件系統(tǒng)有很強(qiáng)的QOS(服務(wù)質(zhì)量)要求。
異構(gòu)計算方面,這種大型的計算中心內(nèi)部,CPU、GPU、FPGA、DPU、專用加速器等,對處理不同種類的工作數(shù)據(jù)各有優(yōu)勢與劣勢,也有運(yùn)營成本高低之分,所以未來一定要綜合部署,多種架構(gòu)可能都需要涵蓋,而且要有機(jī)聯(lián)合起來。
算力是指標(biāo),但性能更重要
《中國電子報》:英特爾在異構(gòu)計算領(lǐng)域是否有了新的研發(fā)進(jìn)展?突破了哪些技術(shù)瓶頸?會對算力帶來怎樣的提升?
宋繼強(qiáng):首先,在架構(gòu)方面,英特爾已經(jīng)擁有了非常多的種類,比如通用計算有使用x86架構(gòu)的性能核、能效核這種不同種類的核。英特爾在通用處理器里,還會適度增加專用加速器,比如有專門針對AI加速的,也有專門針對安全特性等加速的,提供可選的、具有獨(dú)特性的加速硬件配置。
其次,英特爾在圖形(Graphics)大規(guī)模并行處理的架構(gòu)方面,可以很靈活地組合小的芯片形成集群,再由多集群組成大的計算芯片,并且根據(jù)要求去分級。
最后,IPU現(xiàn)在已經(jīng)逐漸往主流方向發(fā)展,做法也變得多種多樣,比如想要偏向卸載計算,就可以將網(wǎng)絡(luò)管理、虛擬化、存儲管理相關(guān)的計算進(jìn)行分別卸載。
所以在異構(gòu)計算領(lǐng)域,會越來越精細(xì)地去拆分那些特性不同、要求不同的工作負(fù)載,然后逐漸統(tǒng)一化、標(biāo)準(zhǔn)化。未來的異構(gòu)要根據(jù)不同的場景、數(shù)據(jù)種類和處理的延時、帶寬要求進(jìn)行設(shè)計,在這個新的發(fā)展趨勢下,可以看到在CPU和GPU之外,會有更多種類的“PU”出現(xiàn)。
算力是一個指標(biāo),它可以將一個比較復(fù)雜的事情簡單化,可如果只去看芯片上足電運(yùn)行時,能提供多少算力,客戶是不會僅憑這個算力購買的,還是更看重性能。且單單只提算力也對現(xiàn)在提倡的“綠色計算”不是一件好事。
英特爾的優(yōu)勢在于,首先,技術(shù)基礎(chǔ)穩(wěn)固且強(qiáng)大。英特爾在架構(gòu)、制程工藝上都積累了很強(qiáng)的基礎(chǔ),并且在全新IDM2.0戰(zhàn)略領(lǐng)導(dǎo)下,可以看到英特爾在架構(gòu)和制程工藝兩方面迭代演進(jìn)的速度都得到了明顯提升,被稱為“打了激素的摩爾定律”。
其次,英特爾有多種架構(gòu)和不同加速器去處理合適的應(yīng)用負(fù)載。英特爾現(xiàn)在非常明確的在支持開放IP,和客戶聯(lián)合定制芯片。
最后,英特爾秉持的“軟件優(yōu)先”理念。這對開發(fā)者來說尤為重要。例如英特爾的oneAPI,就是讓開發(fā)者知道未來可以信賴這套API,不會因?yàn)閷碛布鼡Q了又要重新選。
現(xiàn)在行業(yè)正在轉(zhuǎn)向以異構(gòu)為基礎(chǔ)的技術(shù)新生態(tài),雖然短期會有一些曲折,但大家一起堅持下來,未來還是能把這件事情做好的。
《中國電子報》:英特爾發(fā)布了代號為Falcon Shores的新架構(gòu)設(shè)計。您能否介紹一下,該產(chǎn)品具備怎樣的特點(diǎn)和差異化優(yōu)勢?
宋繼強(qiáng):FalconShores架構(gòu)運(yùn)用了更新的做法??梢园褁86與Xe顯卡集成在同一插槽,對于原本只能加載至強(qiáng)高性能CPU的處理器主板來講,就可以在不改變主板的設(shè)計的前提下,直接插入芯粒,封裝之后用做CPU運(yùn)算的內(nèi)核,比如性能核、能效核以及Xe架構(gòu)的圖形內(nèi)核。Xe的內(nèi)核分兩種架構(gòu):一種是專門針對圖形進(jìn)行了優(yōu)化,稱為HPG(High-PerformanceGraphics);另外一種是專門針對高性能計算進(jìn)行了優(yōu)化,稱為HPC。
Falcon Shores架構(gòu)最獨(dú)特的點(diǎn)是可以根據(jù)客戶的需求,在不增加主板上額外面積、空間以及布線要求的情況下,在x86芯片的插槽中自由配比Xe顯卡,將x86的主芯片與GPU的性能整合在一起,這是一個創(chuàng)新。
此外,F(xiàn)alconShores架構(gòu)可以集成更多的高帶寬內(nèi)存。Falcon Shores架構(gòu)將提供超過5倍的每瓦性能、計算密度以及內(nèi)存容量和帶寬提升。帶寬的提升主要是把CPU或GPU的Die,跟HBM這些Die靠得更近,可以用更高帶寬的封裝技術(shù)進(jìn)行實(shí)施,更具靈活性。
Die、芯粒也可以用最先進(jìn)的Intel 20A、Intel 18A的工藝制造,這樣才能保證將多種高性能的計算核集合在一起時,仍然可以保證它的體積和功耗是可控的,這個平衡感是非常重要的。
(審核編輯: 智匯聞)