每日經(jīng)濟新聞 2025-12-29 18:13:45
今年10月,北京大學孫仲教授團隊成功研制基于阻變存儲器的高精度、可擴展模擬矩陣計算芯片,精度達24位定點,提升5個數(shù)量級。該芯片可支撐6G、具身智能及AI大模型訓練等場景,能在28納米及以上成熟工藝量產(chǎn),繞開光刻機限制。目前,芯片尚處實驗室階段,更適用于中等規(guī)模場景。團隊計劃兩年內(nèi)提升芯片陣列規(guī)模,以在更多場景產(chǎn)生實際效用。
每經(jīng)記者|張蕊 每經(jīng)編輯|廖丹

當AI時代算力集群規(guī)模正逐步從萬卡向十萬卡、百萬卡甚至千萬卡升級時,一支中國團隊悄然另辟蹊徑。
今年10月,北京大學人工智能研究院/集成電路學院雙聘助理教授孫仲與北京大學集成電路學院蔡一茂教授、王宗巍助理教授率領(lǐng)的團隊成功研制出基于阻變存儲器的高精度、可擴展模擬矩陣計算芯片,在全球范圍內(nèi)首次將模擬計算的精度提升至24位定點精度,讓未來同等任務下使用更少的計算卡成為可能。
這是一種完全不同于目前所有商用量產(chǎn)芯片的新型芯片,計算精度從1%躍升至千萬分之一;可以支撐6G、具身智能及AI大模型訓練等多個前沿場景;更重要的是,它可在28納米及以上成熟工藝量產(chǎn),繞開光刻機“卡脖子”環(huán)節(jié)。
事實上,AI大模型、具身智能、6G等應用背后都是矩陣計算,AI推理是做矩陣乘法,AI訓練是在解矩陣方程。而英偉達的崛起正是得益于GPU(圖形處理器)很擅長做矩陣計算。
作為北京大學人工智能研究院的研究員,“熱愛且擅長”讓孫仲深耕模擬計算領(lǐng)域多年。從聚焦AI算法底層通用矩陣計算加速研究,到在《自然·電子學》《自然·通訊》等頂刊發(fā)表系列成果,他始終錨定模擬計算——這個上世紀30至60年代曾風靡一時卻因精度瓶頸被數(shù)字計算取代的技術(shù),在他眼中正是突破算力困局的關(guān)鍵。
新型芯片研制成功對于應對AI領(lǐng)域的算力與能耗挑戰(zhàn)有何意義?隨著摩爾定律漸趨終結(jié)、數(shù)字計算陷入能耗困局,GPU還能否一直“稱王”?近日,《每日經(jīng)濟新聞》記者對孫仲進行了深入專訪。
NBD:芯片研制成功的意義是什么?有觀點認為,它為算力領(lǐng)域提供了新的技術(shù)路線,有助于減少對單一計算范式的依賴,是否如此?
孫仲:確實如此。計算范式只有兩種:模擬(類比)計算與數(shù)字計算。當前主流芯片——無論是GPU、TPU(張量處理器)、CPU(中央處理器)還是NPU(神經(jīng)網(wǎng)絡處理器)——都是數(shù)字芯片,底層都是硅基器件,基于邏輯門(邏輯函數(shù))、晶體管,都要二進制化。以先進GPU為例,一張卡可能集成超過1000億個晶體管,因此能提供很大的算力。但如果追本溯源,會發(fā)現(xiàn)數(shù)字計算其實并非一種很高效的計算方式。
舉例來說,想要完成一次簡單的“1+1”需要28個晶體管,想完成兩個10位數(shù)的乘法需要約1萬個晶體管。但正因為現(xiàn)在晶體管可以做得很小,才能在芯片上容納千億級的晶體管,所以它可以“以量換算”——一次操作要消耗1萬個晶體管,它不在乎,因為它足夠多,1000億除以1萬還有1000萬,這意味著它還有很大算力。
而一個芯片里能有這么多晶體管,在于摩爾定律。我認為摩爾定律是讓現(xiàn)在數(shù)字芯片如此成功的唯一推手。最初晶體管做出來大概是5厘米×5厘米×5厘米這么大,因為有摩爾定律,5厘米變成5納米,所以千億級的晶體管也可以被塞進去,否則,一萬個晶體管可能要鋪滿整間屋子甚至整個樓層。
注:摩爾定律是由英特爾公司聯(lián)合創(chuàng)始人戈登·摩爾提出。該定律提到,當價格不變時,集成電路上可容納的晶體管數(shù)目每隔18至24個月增加一倍,性能也將提升一倍。
但如今摩爾定律趨于終結(jié),晶體管很難再微縮,所以業(yè)界現(xiàn)在只能橫向堆計算卡:少則百卡,多則萬卡、十萬卡。但這樣的方式我認為是不可持續(xù)的——能耗、碳排放均呈指數(shù)級上升,與國家“雙碳”目標相悖。因此,我認為需要探索一種不同的計算范式,即模擬(類比)計算。
模擬計算并非全新的計算范式,在上世紀30至60年代曾被廣泛應用,但隨著計算任務日益復雜,其精度瓶頸凸顯,逐漸被數(shù)字計算取代。我們這次研究的核心正是要解決模擬計算“算不準”這一痛點。
NBD:模擬(類比)計算是比數(shù)字計算更高效嗎?
孫仲:是的。模擬計算也叫類比計算,人類從小算“1+1”,并非動用28個晶體管,而是“一根筷子加一根筷子等于兩根筷子”“一棵樹加一棵樹等于兩棵樹”的物理類比,一根筷子、一棵樹都是物理系統(tǒng)。若將“筷子”“樹”縮至電子尺度——1個電子加1個電子是2個電子,這永遠成立,要做計算的時候,就可以直接通過物理定律來做計算——相較于28個晶體管,電子級類比在硬件資源開銷與能耗上均下降數(shù)個量級。
數(shù)字計算是二進制,都以0和1來表示信息,例如“5”被編碼為“101”,任何運算都需通過邏輯門對二進制信息進行操作;模擬計算則無需編碼,“5”可直接對應物理量(如5 V、5000Ω),加法與乘法都可以直接通過物理定律瞬時完成。
換句話說,數(shù)字計算中間有一個“翻譯”環(huán)節(jié),而這個環(huán)節(jié)把原本的信息“翻譯”得體量更為龐大,計算過程需要去一一處理這些更龐大的信息,才能得到針對原始問題的解。而模擬計算則省去了這個中間環(huán)節(jié),所以速度更快,能耗也大幅降低。
NBD:既然數(shù)字計算流程如此繁瑣,為什么要設計成這樣?為什么早期計算機仍然舍棄模擬計算而轉(zhuǎn)向數(shù)字?
孫仲:根本原因在于可靠性。轉(zhuǎn)成0和1,就只需要區(qū)分0和1,這是最可靠的。數(shù)字計算的魯棒性更好,抗干擾能力更強;而早期模擬計算追求連續(xù)函數(shù)輸出,極易受噪聲影響,導致結(jié)果漂移,加之當時也缺乏現(xiàn)在的穩(wěn)定器件,模擬精度難以保證,因此業(yè)界普遍轉(zhuǎn)向數(shù)字范式。
NBD:就是說模擬計算長期受困于精度瓶頸,而你們的研究恰好解決了這一難題?
孫仲:是的。精度問題一直是“如鯁在喉”的關(guān)鍵痛點,我們將相對誤差大幅壓降至千萬分之一(10??)量級,相當于把這個“鯁”拿出來了,這也是我們的成果受到廣泛關(guān)注的核心原因。

NBD:將相對誤差壓降至千萬分之一是怎么做到的?
孫仲:首先需要強調(diào)一個前提,提升精度不能以犧牲能效或速度為代價,否則沒有意義。也就是說,不能精度提升了,能效反而下降或者計算速度比數(shù)字芯片還慢了。
為了提升精度,我們沿用了計算機領(lǐng)域的經(jīng)典迭代優(yōu)化算法。簡單來說,就是基于2019年提出的低精度電路來解方程,解方程的過程就好比在一片山谷中找最低點,能量函數(shù)最低點就是方程的最優(yōu)解。2019年的這個電路一上來就會告訴你最低點在某個盆地,它不是精確的最低點,但是非常接近。之后再以高精度模擬計算電路反復修正,如果精確點是1,首次迭代得0.9,二次得0.99,三次得0.999??僅需數(shù)次迭代就能把精度提升非常多,并且能效仍比數(shù)字計算高數(shù)個量級。
NBD:能否具體介紹一下這款芯片?
孫仲:我們的研究以阻變存儲器為介質(zhì),摒棄傳統(tǒng)硅基晶體管與邏輯門,采用類比方式完成計算。具體而言,就是將待解的矩陣方程映射至電路物理量,使電路自發(fā)求解矩陣方程,而非由邏輯門一步步推算。
2019年我們用設計的第一個電路類比求解時,可以求解成功,但精度比較低——1%量級的誤差,準確度可達99%,聽起來還好,但對于需要級聯(lián)千步乃至萬步的大規(guī)模計算任務而言,誤差將呈指數(shù)級累積——在半導體領(lǐng)域,如果每一步工藝成功率是99%,就意味著這個芯片做出來的成功率是0。同理,在計算環(huán)節(jié)若每步保留1%誤差,千步之后結(jié)果將面目全非。
因此,必須把單步誤差壓得足夠低,降至千萬分之一乃至億分之一(10??)量級,才能滿足AI訓練等場景對FP16(浮點16位)精度的剛性需求。我們的研究正是將相對誤差從1%降至千萬分之一,將精度提升至24位定點精度,提升了5個數(shù)量級,使模擬計算首次具備與主流數(shù)字精度接軌的能力,24位定點精度相當于數(shù)字計算的浮點32位(FP32),從而展現(xiàn)出廣闊的應用前景。
NBD:在研制成功的過程中有沒有遇到一些困難?
孫仲:嚴格意義上的困難集中在認知層面。模擬計算長期被貼上“低精度”標簽,早期我們自己也接受這個設定,所以在2019—2022年間,我們陸續(xù)設計了多款電路,解各類矩陣方程,但都停留在低精度(1%左右的相對誤差)。每當向外推介時,對方一句“精度問題怎么解決”便足以讓討論終止,低精度應用的局限性顯而易見。
真正要應用的話,高精度肯定是一個基本需求,只有突破了精度瓶頸,才能談規(guī)模應用。上世紀,模擬計算就是因為精度瓶頸才被數(shù)字計算取代。但從科學探索和原始創(chuàng)新的角度來看,低精度階段必不可少。
NBD:這款新型芯片的創(chuàng)新點主要是什么?
孫仲:歸納起來,主要創(chuàng)新有三點。
第一,器件層面:上世紀的模擬計算都是基于傳統(tǒng)硅基電路,多用于求解微分方程;我們則首次采用已可量產(chǎn)的、足夠成熟的阻變存儲器作為核心器件,面向矩陣方程求解,形成“現(xiàn)代模擬計算”范式。
第二,電路層面:2019年我們提出一種全新的反饋電路,這是核心??梢栽诓伙@著增加能耗與延時的前提下,將計算誤差由1%降低至千萬分之一量級,使模擬計算首次具備與FP32等同的數(shù)值可靠性。
第三,算法層面:引入了經(jīng)典的迭代優(yōu)化及“位切片”算法——將24位定點數(shù)拆分為8組3位并行或串行處理,再通過移位相加得到全精度結(jié)果,從而高效實現(xiàn)高精度矩陣乘法。
NBD:阻變存儲器在這個過程中扮演什么角色?
孫仲:阻變存儲器是實現(xiàn)高速、低功耗矩陣方程求解的硬件載體,我們利用它實現(xiàn)了最核心的矩陣方程求解的電路,能夠?qū)崿F(xiàn)快速近似求解,然后再用高精度的模擬計算系統(tǒng)迭代,實現(xiàn)高精度的方程求解。
但這樣的載體其實并不一定非要是阻變存儲器,是因為我一直從事阻變存儲器的研究,原則上,其他的存儲器(比如相變、磁性、鐵電存儲器等)都可以承載該電路。換句話說,類比計算的核心是數(shù)學到物理的映射,物理系統(tǒng)可以是多元的,不局限于阻變存儲器。

NBD:目前這款芯片的研究處于什么階段?
孫仲:目前還處在實驗室階段。我們假設未來6G大規(guī)模MIMO(天線陣列)的某類任務由我們的芯片執(zhí)行,并給出相應的性能評估,屬于原理性驗證,并非現(xiàn)網(wǎng)實測。
由于實驗室的規(guī)模比較小,尚無法與高端數(shù)字芯片抗衡。晶體管已經(jīng)可做到納米尺度并且運行頻率極高,在小規(guī)模任務上優(yōu)勢明顯。我們的芯片更適用于中等規(guī)模場景,也就是在中等規(guī)模才能發(fā)揮出優(yōu)勢。太小則性能不及,超大規(guī)模則暫時夠不著。
目前,所有主流AI訓練均為一階方法,二階訓練方法速度會更快,迭代次數(shù)會更少,但是每次迭代都要解一次矩陣方程,單次計算量巨大,這對于數(shù)字芯片來說是很難的。但我們的技術(shù)恰好可以去做快速矩陣方程求解,因此理論上非常適合來做二階訓練的加速。
NBD:二階訓練是否特指大模型的訓練?
孫仲:并非只有大模型才是AI,小規(guī)模的神經(jīng)網(wǎng)絡也是AI,所以無所謂大模型小模型,小至傳統(tǒng)神經(jīng)網(wǎng)絡,大至千億參數(shù)模型,都可以使用二階訓練;其目的是為了讓AI訓練得更快。
NBD:除AI訓練、6G外,還有哪些潛在應用?
孫仲:具身智能、超級計算。像氣象預報、量子力學、熱擴散模擬等超級計算都是解微分方程,而微分方程在數(shù)字計算機上需轉(zhuǎn)成矩陣方程后才能求解。因此,超算中心的絕大部分算力實質(zhì)上都是用于解矩陣方程。所以,超算領(lǐng)域甚至可以是一個更大的、更契合的應用場景。
NBD:在超算領(lǐng)域應用還需要做什么?
孫仲:需要擴大芯片的矩陣規(guī)模(指數(shù)據(jù)規(guī)模,即矩陣行列數(shù)),因為超算要解的都是很大的問題,涉及的矩陣規(guī)??赡苁恰鞍偃f×百萬”級別的。如果需求是解“百萬×百萬”的方程,硬件也需要對應擴展。當然,我們不會直接去做“百萬×百萬”的陣列,而是通過算法設計實現(xiàn)“以小博大”——例如以512×512硬件求解1024×1024方程,以1024×1024硬件求解2048×2048方程,依此類推。
NBD:這個規(guī)模要做大依靠什么?
孫仲:要流片,要去代工廠做。跟數(shù)字芯片的流程是一樣的,我們的芯片也能在現(xiàn)有的代工廠產(chǎn)線上做出來,這是相較于量子計算、光計算的顯著優(yōu)勢——它們因材料與工藝條件差異,無法沿用當前生產(chǎn)線。
NBD:預計多久能夠落地到消費端?若面向消費端,還需完成哪些關(guān)鍵環(huán)節(jié)?
孫仲:這沒辦法準確預估。首先我們要擴大芯片的陣列規(guī)模;其次必須投入大量工程資源,包括流片、測試、可靠性驗證等量產(chǎn)前工作;最后還需商業(yè)推動——說服產(chǎn)業(yè)鏈伙伴放棄現(xiàn)有方案、采用新技術(shù),這都屬于典型的市場行為。
NBD:下一步有什么規(guī)劃?
孫仲:就團隊內(nèi)部而言,我們設定的工作節(jié)點是:兩年內(nèi)把陣列從16×16提升至128×128,并力爭擴展至512×512。達到這樣的規(guī)模后,就能夠在具身智能、6G通信等中等規(guī)模矩陣場景產(chǎn)生實際效用。
NBD:要在兩年內(nèi)完成16×16到512×512的躍升,技術(shù)難度如何?
孫仲:芯片規(guī)模擴大必然伴隨寄生效應、良率控制、功耗分布等工程挑戰(zhàn),所以肯定是有難度的,需要在器件、電路與工藝層面同步優(yōu)化。
需要強調(diào)的是,新型芯片問世,證實了一條新路徑的可行性。我們需要提前做技術(shù)儲備:當某類計算任務(如超級AI)急切需要做矩陣方程求解時,中國要有現(xiàn)成方案和團隊站在那里,可能不是我們,是其他團隊,但要有這樣的儲備。GPU當年僅用于游戲,2012年因AI需求爆發(fā)而一飛沖天;同理,中國必須儲備多種先進技術(shù),以等待屬于自己的“2012時刻”。當窗口開啟,技術(shù)儲備將決定我們能否抓住下一波浪潮。
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP