HBM內(nèi)存:韓國人的游戲
編者按:本文來自微信公眾號硅基研習(xí)社(ID:gh_8448ad119f2e),作者:何律衡,創(chuàng)業(yè)邦經(jīng)授權(quán)發(fā)布。
2020年5月,一年兩度的英偉達(dá)GTC大會由于疫情原因無法舉辦,英偉達(dá)官方索性連線上直播都懶得走形式,發(fā)布會改為播放CEO黃仁勛在自家廚房拍攝的視頻。
(相關(guān)資料圖)
視頻中,老黃從灶臺里掏出了當(dāng)晚的主角:基于7nm工藝的A100 GPU。
黃仁勛“預(yù)熱”A100 GPU
這顆芯片和今年3月發(fā)布的H100 GPU一起,成為了大煉AI的入場券,直接把英偉達(dá)送上了萬億美元市值。伴隨單價25萬人民幣的H100 GPU供不應(yīng)求,背后的另一個大贏家也慢慢浮出水面:韓國內(nèi)存廠商。
A100和H100的顯存模塊并沒有采用常用的DDR/GDDR內(nèi)存,而是HBM內(nèi)存。目前,能夠穩(wěn)定量產(chǎn)HBM的廠家,只有韓國的三星和SK海力士。
相比DDR/GDDR等路線,HBM大幅度提高了內(nèi)存帶寬,完美貼合了AI訓(xùn)練對數(shù)據(jù)傳輸效率近乎病態(tài)的追求。
所謂帶寬,可以簡單理解為內(nèi)存讀取/寫入數(shù)據(jù)的效率,一般帶寬越高,數(shù)據(jù)的吞吐能力就越強(qiáng)。英偉達(dá)針對美國禁令專門推出的特供版A800、H800 GPU中,主要縮水的部分就是帶寬,只有原版GPU的3/4左右。
包括內(nèi)存在內(nèi)的存儲芯片是當(dāng)之無愧的“半導(dǎo)體石油”,市場規(guī)模長期占據(jù)整個半導(dǎo)體市場近三分之一。廣義的存儲包括內(nèi)存、硬盤、閃存等門類。
不過由于產(chǎn)品高度標(biāo)準(zhǔn)化,每隔幾年就要來一次價格戰(zhàn),上演大魚吃小魚的戲碼。在市場規(guī)模較大的內(nèi)存和閃存兩個門類,經(jīng)過多次價格周期,主流玩家已經(jīng)所剩無幾。
這兩年原本是存儲市場的冬天,DRAM和NAND芯片價格持續(xù)下探,SK海力士連續(xù)虧損兩個季度,三星一季度凈利潤更是暴跌86.1%。原本大家都在節(jié)衣縮食過日子,但AI訓(xùn)練的熱潮讓原本不溫不火的HBM內(nèi)存逆勢增長,成了全村的希望。
在消費(fèi)電子時代大殺四方的韓國內(nèi)存,似乎又成了AI時代的第一個贏家。
日本人先動的手HBM內(nèi)存的前身3D DRAM內(nèi)存,誕生在韓國芯片產(chǎn)業(yè)的死對頭日本。
2009年9月,日本存儲大廠爾必達(dá)宣布,成功開發(fā)了業(yè)內(nèi)首款3D DRAM。爾必達(dá)成立于世紀(jì)初日本半導(dǎo)體產(chǎn)業(yè)風(fēng)雨飄搖的年代,由日立、NEC和三菱三家企業(yè)的存儲部門組合而來,肩負(fù)著重振日本半導(dǎo)體產(chǎn)業(yè)的使命。
結(jié)果金融危機(jī)期間,由于需求萎縮疊加三星逆勢擴(kuò)產(chǎn),爾必達(dá)積累了天量的虧損和債務(wù),命懸一線。
作為公司掌舵者,坂本幸雄深知爾必達(dá)難以在大規(guī)模生產(chǎn)能力上戰(zhàn)勝三星,于是選擇與日本官方合作,加快鮮有廠商涉足的3D DRAM的研究,從技術(shù)上反攻韓國人。同一時期,東芝在技術(shù)路線上類似的閃存門類,成功量產(chǎn)了全球首款3D NAND閃存,無疑大大增強(qiáng)了爾必達(dá)的信心。
所謂3D DRAM/3D NAND,可以簡單理解為將很多塊DRAM/NAND芯片像蓋房子一樣垂直堆疊起來。東芝的第一塊3D NAND就通過自研的BiCS技術(shù),垂直堆疊了8塊NAND芯片。
從2D DRAM到3D DRAM;圖源:Business Korea
3D堆疊的優(yōu)勢在于,可以在不增加芯片面積的情況下,盡可能做大容量和帶寬,而且不需要先進(jìn)制程。另一個思路則是用更先進(jìn)的工藝制程,可以做到同樣的效果,但成本會大幅增加。這在成本決定輸贏的存儲領(lǐng)域,無異于飲鴆止渴。
(具體原因涉及比較復(fù)雜的DRAM運(yùn)行原理,感興趣的讀者可以移步文末“注1”瀏覽)
爾必達(dá)的另一個算盤在于,為當(dāng)時方興未艾的移動終端市場做準(zhǔn)備,實(shí)現(xiàn)彎道超車:
作為iPhone的內(nèi)存供應(yīng)商,坂本幸雄深知智能手機(jī)、平板、超級本這類便攜設(shè)備的市場潛力,3D DRAM封裝體積小、功耗低的特點(diǎn),與移動設(shè)備便攜省電的訴求,幾乎是天作之合。
2011年6月,爾必達(dá)宣布,由4片DRAM堆疊而成的8G內(nèi)存顆粒已經(jīng)進(jìn)入送樣階段。爾必達(dá)通過直通硅晶穿孔(Through Silicon Vias;TSV) 技術(shù),在堆疊芯片的同時大幅度提高了內(nèi)存帶寬,相比傳統(tǒng)的8G DRAM,芯片面積縮小了70%,預(yù)計一年后就可以量產(chǎn)。
但人算不如天算,一年之后,爾必達(dá)沒等來3D DRAM的訂單,反而等來了公司的破產(chǎn)。
金融危機(jī)后,三星依靠體量優(yōu)勢在內(nèi)存價格低谷期瘋狂擴(kuò)產(chǎn),頂住虧損進(jìn)一步拉低價格,將競爭對手?jǐn)D壓出去。同在韓國的海力士半導(dǎo)體就因?yàn)閭_高筑,在爾必達(dá)破產(chǎn)的同一年被SK集團(tuán)收入囊中,成為了如今的SK海力士。
考慮到三星的反周期屠刀砍起來連同胞都不放過,利潤率更微薄的爾必達(dá)處境可想而知。坂本幸雄在破產(chǎn)發(fā)布會上的一句“爾必達(dá)技術(shù)水平很高”,濃縮了所有的落寞與不甘。
伴隨爾必達(dá)的坍塌,被寄予厚望的3D DRAM也隨之沉寂。雖然以iPhone為代表的移動終端市場增長迅猛,但絕大部分產(chǎn)品都采用了成本更低的LPDDR(Low Power DDR)內(nèi)存。3D DRAM作為一種非常超前的技術(shù)理念,在曇花一現(xiàn)后便被束之高閣。
直到2015年,另一個與爾必達(dá)處境極其相似的公司,把這項(xiàng)技術(shù)從故紙堆里翻了出來。
美國人來了2015年6月,AMD在洛杉磯的貝拉斯科劇院發(fā)布了其新款旗艦顯卡:Fiji架構(gòu)的Radeon R9 Fury X。
在這塊GPU的封裝基板上,除了GPU芯片,只有供電電路和輸出接口器件,原本圍繞在GPU芯片周圍的顯存芯片不見了,取而代之的是和GPU封裝在一起,由多顆顯存芯片垂直堆疊而成的顯存顆粒,整塊顯卡的面積大幅度縮小。
在發(fā)布會上,AMD也給這種新型顯存取了個新的名字:HBM(High Bandwidth Memory)。
AMD的Fiji系列顯卡將顯存與GPU封裝在了一起,大幅縮小了芯片面積
2006年,AMD豪擲54億美元收購了GPU公司ATI,希望憑借CPU和GPU的集成路線,扭轉(zhuǎn)與英特爾競爭中的頹勢。然而此后幾年,CPU產(chǎn)品線的存在感一度只剩下網(wǎng)絡(luò)段子,收購而來的GPU也一如既往的被英偉達(dá)按在地上摩擦。
伴隨Tesla架構(gòu)和CUDA平臺的推出,英偉達(dá)大有一統(tǒng)GPU市場的氣勢。以9800GT為代表的Geforce 9系列顯卡,一度成為國內(nèi)網(wǎng)吧的一代神卡。
2012年,蘇姿豐在AMD股價最低點(diǎn)接手后,把大部分資源傾斜到了公司的老本行CPU業(yè)務(wù),面對英偉達(dá)在GPU市場越來越夸張的市場份額,AMD也寄望以新技術(shù)作為突破口彎道超車。
這個突破口,就是當(dāng)時GPU領(lǐng)域正在暴露的痛點(diǎn):帶寬。
GPU和CPU都遵循著馮·諾依曼架構(gòu),其核心在于“存算分離”——即芯片處理數(shù)據(jù)時,需要從外部的內(nèi)存中調(diào)取數(shù)據(jù),計算完成后再傳輸?shù)絻?nèi)存中,一來一回,都會造成計算的延遲。同時,數(shù)據(jù)傳輸?shù)摹皵?shù)量”也會因此受限制。
舉例來說,可以將GPU和顯存/內(nèi)存的關(guān)系比作上海的浦東和浦西,兩地間的物資(數(shù)據(jù))運(yùn)輸需要依賴南浦大橋,南浦大橋的車道數(shù)量決定了物資運(yùn)輸?shù)男?,這個車道數(shù)量就是內(nèi)存帶寬,它決定了數(shù)據(jù)傳輸?shù)乃俣?,也間接影響著GPU的計算速度。
1980年到2000年,GPU和顯存/內(nèi)存的“速度失配”以每年50%的速率增加。也就是說,南浦大橋車道拓寬的速度,遠(yuǎn)遠(yuǎn)無法滿足兩地物資運(yùn)輸?shù)脑鲩L,這就導(dǎo)致在游戲等高性能計算的場景下,帶寬成為了越來越明顯的瓶頸。
CPU/GPU性能與DRAM性能之間的差距正在拉大
為了解決這個問題,AMD的思路很直接:把浦東和浦西拼起來。
AMD的設(shè)想是將DRAM芯片和GPU芯片封裝在一起,相當(dāng)于把浦東和浦西拼在一塊,徹底車道拓寬運(yùn)輸問題。但傳統(tǒng)的2D DRAM由于芯片面積大,封裝在一起難以控制功耗和發(fā)熱問題。而多顆DRAM垂直堆疊,就成了最完美的方案。
于是,沉寂了多年的3D DRAM技術(shù)以HBM的新身份,又一次站上了臺前。
(理論上來說,3D DRAM和HBM并非相同的技術(shù)路線,感興趣的讀者可以移步文末“注2”瀏覽)
將顯存從主芯片外移到主芯片旁邊
早在2008年,爾必達(dá)攻堅(jiān)3D DRAM的同一時期,AMD就與海力士半導(dǎo)體結(jié)為聯(lián)盟共同攻克HBM。當(dāng)時,全球范圍內(nèi)只有東芝和海力士擁有3D NAND閃存的堆疊經(jīng)驗(yàn),但東芝在2001年就退出了DRAM業(yè)務(wù),海力士成了AMD唯一的選擇。
2015年前后,4K分辨率開始普及,AMD希望借助4K游戲?qū)挼男枨?,抄一波英偉達(dá)的后路。隨后,搭載AMD Fiji的Radeon R9 Fury X,功耗比超越了英偉達(dá)同年的Kepler架構(gòu)新品,首次在紙面性能上壓了對手一頭。
但遺憾的是,由于老舊的GCN架構(gòu)拖后腿,沒能讓HBM的好處完全凸顯出來。同時,相對主流的DDR/GDDR路線,HBM的高成本問題依然難以解決,無法在消費(fèi)級市場大面積鋪開。
蘋果的MacBook曾推出過一款HBM顯存的機(jī)型,選配價格感人:
AMD厲兵秣馬多年,最終換來了一個鎩羽而歸的結(jié)局,但HBM的春天卻在人工智能的浪潮中意外到來。
韓國人的游戲2016年,谷歌的AlphaGo在全球社交媒體的注視下,戰(zhàn)勝圍棋世界冠軍李世石,深度學(xué)習(xí)橫空出世,將科幻作品中的人工智能變得觸手可及。
拋開文藝作品的濾鏡,深度學(xué)習(xí)的本質(zhì)是數(shù)學(xué)和概率論,其核心在于通過海量數(shù)據(jù)訓(xùn)練模型,確定函數(shù)中的參數(shù),在決策中帶入實(shí)際數(shù)據(jù)得到最終的解。在這當(dāng)中,承擔(dān)模型訓(xùn)練的就是AI芯片。
理論上來說,數(shù)據(jù)量越大得到的函數(shù)參數(shù)越可靠,這就給AI芯片的數(shù)據(jù)吞吐量及數(shù)據(jù)傳輸?shù)难舆t性帶來了挑戰(zhàn)。這也是AlphaGo使用英偉達(dá)的GPU作為模型訓(xùn)練芯片的原因:
在當(dāng)時,沒有什么芯片比英偉達(dá)的GPU數(shù)據(jù)吞吐量更高、更適合訓(xùn)練模型的了。
但這還不夠,因?yàn)锳I模型對算力的需求正在以月為單位指數(shù)級暴漲,OpenAI在2018年發(fā)布過一份報告:AI算力需求每個月翻番,這是被芯片行業(yè)奉為圭臬的摩爾定律花費(fèi)18個月才能完成的事情。
于是,原本在GPU/CPU上只是稍顯棘手的性能瓶頸,放在AI芯片上,就變成了刻不容緩解決的大問題。在這個節(jié)骨眼上誕生的HBM,其高帶寬、低延遲的特性,幾乎是為AI芯片量身定做的。
2017年,AlphaGo再戰(zhàn)另一世界圍棋冠軍柯潔,訓(xùn)練芯片卻換上了自家研發(fā)的TPU。在芯片設(shè)計上,從第二代開始的每一代TPU,都采用了HBM的設(shè)計。
同一時期,英偉達(dá)緊跟AMD推出了針對數(shù)據(jù)中心和深度學(xué)習(xí)的新款GPU:Tesla P100,搭載了三星的首個第二代HBM內(nèi)存(HBM2)。
目前,面向高性能計算市場的GPU芯片,幾乎都配備了HBM內(nèi)存。
伴隨AI的快速繁榮,存儲巨頭們圍繞HBM的競爭也迅速展開,但主角只有韓國人。
2010年,三星就緊隨SK海力士開始了HBM內(nèi)存的研發(fā),并在2016年搶先SK海力士成功量產(chǎn)HBM2,將每個HBM堆棧容量提升至8GB,此后又率先量產(chǎn)第三代HBM的青春版HBM3E。
2021年10月,一直緊咬三星的SK海力士又成功量產(chǎn)HBM3,重新奪回主動權(quán)。
韓國公司你追我趕的時候,內(nèi)存三巨頭之一的美光卻因?yàn)榧夹g(shù)路線判斷失誤意外掉隊(duì),成為了一個尷尬的旁觀者。
2022年,全球50%的HBM出貨來自SK海力士,40%來自三星,美光只有10%(TrendForce口徑)。TrendForce預(yù)測,今年SK海力士會將占比進(jìn)一步擴(kuò)大至53%,三星將拿下38%,美光則將下滑至9%。
至此,HBM徹底成為了韓國人的游戲。
韓國人做對了什么?存儲曾是日本半導(dǎo)體產(chǎn)業(yè)的一塊金字招牌,在經(jīng)歷了美國人領(lǐng)導(dǎo)20年(1966-1986)、日本人壟斷的12年(1986-1998)后,已經(jīng)迎來韓國人統(tǒng)治的第25年。
提及韓日在半導(dǎo)體產(chǎn)業(yè)的多年鏖戰(zhàn),三星“越虧越投”的反周期大法似乎是繞不開的環(huán)節(jié),但這并不足以概括韓國人從落后到反超的原因。
存儲芯片是一類特殊的芯片產(chǎn)品,它需要技術(shù)上的領(lǐng)先,但新技術(shù)的普及又需要下游終端市場的帶動。同時, 由于產(chǎn)品高度標(biāo)準(zhǔn)化,再高端的技術(shù)路線也需要與成本相權(quán)衡。
HBM并不是一項(xiàng)新技術(shù),但由于長期缺乏規(guī)模足夠大的下游市場,導(dǎo)致HBM一直無法普及,直到深度學(xué)習(xí)的出現(xiàn)改變了這一點(diǎn)。
即便在日韓存儲產(chǎn)業(yè)競爭最激烈的時期,韓國公司的思路依然是:不花費(fèi)太多成本研究最先進(jìn)的技術(shù),只需要做到“日本人有的我們也有”。
2007年,東芝率先量產(chǎn)了3D NAND閃存,爾必達(dá)隨后成功試產(chǎn)3D DRAM,但三星和SK海力士迅速推出了類似的技術(shù),并且依靠更強(qiáng)大的生產(chǎn)能力與產(chǎn)業(yè)鏈覆蓋實(shí)現(xiàn)了反超。
由于HBM大多需要與GPU/CPU封裝在一起,涉及到制造、封裝等多個芯片生產(chǎn)流程,并非存儲企業(yè)單兵作戰(zhàn)可以解決。爾必達(dá)當(dāng)年雖然做出了3D DRAM的技術(shù)方案,但在最關(guān)鍵的良率爬坡環(huán)節(jié),不得不向臺灣地區(qū)的代工、封裝企業(yè)求援。
比起三番五次求日本銀行業(yè)貸款支援的爾必達(dá),韓國公司無論是資源整合能力,還是對本國產(chǎn)業(yè)鏈的號召力,在全球半導(dǎo)體市場幾乎都獨(dú)一無二,在SK海力士開發(fā)HBM的過程中,就有多家韓國本土供應(yīng)商加入,大大加快了開發(fā)進(jìn)程。
雖然HBM目前的市場規(guī)模還不到整個存儲芯片市場的1/10,也不乏其他技術(shù)競爭,但決定其能否普及的成本問題,恰恰卻是三星和SK海力士最擅長解決的——依靠大規(guī)模生產(chǎn)能力快速降低成本,拉高其他公司參與競爭需要的投資門檻。
有些諷刺的是,用大規(guī)模生產(chǎn)能力將誕生在美國的新技術(shù)快速產(chǎn)業(yè)化,恰恰是日本存儲芯片在80年代大放異彩的原因。90年代后,日本社會普遍不滿足于生產(chǎn)制造環(huán)節(jié)的成功,尤其是以貝爾實(shí)驗(yàn)室為代表的大公司研究院模式,更是被日本反復(fù)學(xué)習(xí)效仿。
對技術(shù)的崇信可以在一些產(chǎn)業(yè)獲得巨大的成功,比如至今仍被日本壟斷的半導(dǎo)體材料。但在存儲市場,技術(shù)并不是唯一的勝負(fù)手。
爾必達(dá)的3D DRAM縱然在移動設(shè)備上有無可比擬的技術(shù)優(yōu)勢,但并沒有阻擋成本更低的LPDDR方案迅速普及。當(dāng)更適合AI的HBM迅速增長時,日本人早就下了牌桌。正如湯之上隆在書中概括:
日本人通常把性能和質(zhì)量放在第一位,往往忽視生產(chǎn)成本。這是因?yàn)槿毡救藫碛幸环N獨(dú)特的感性認(rèn)識,他們習(xí)慣將技術(shù)和金錢劃清界限,主張技術(shù)神圣,金錢骯臟。
技術(shù)的領(lǐng)先可以畢其功于一役,但一個產(chǎn)業(yè)的拔地而起,既需要產(chǎn)業(yè)鏈的合理布局,又需要強(qiáng)大的資源整合能力與供應(yīng)鏈上下游的密切協(xié)作,以及技術(shù)與商業(yè)上的反復(fù)權(quán)衡。日本在技術(shù)上一度領(lǐng)先,但韓國人最終獲得了商業(yè)的勝利。
坂本幸雄反復(fù)念叨的“爾必達(dá)技術(shù)世界第一”并沒有什么問題,直到破產(chǎn)那天,爾必達(dá)的生產(chǎn)工藝和技術(shù)儲備依然領(lǐng)先韓國人。但在京畿道城南市三星電子總部徹夜的歡呼聲中,他的不甘與嘆息是如此不值一提。
參考資料[1]“HBM”詞條,SemiWiki
[2]HBM需求激增 SK海力士受益,TrendForce
[3]HBM提供了令人印象深刻的性能提升,NetworkWorld
[4]人工智能推動HBM增長,EETAsia
[5]內(nèi)存革命:存儲巨頭爭霸HBM,TrendForce
[6]數(shù)據(jù)中心即將進(jìn)入HBM3時代,半導(dǎo)體產(chǎn)業(yè)縱橫
[7]HBM在AI系統(tǒng)中的問題,Semiengineering
[8]HBM會替代DDR 成為計算機(jī)內(nèi)存嗎?EETAsia
[9]為什么存儲器會成為阻礙AI發(fā)展的難題?雷鋒網(wǎng)
[10]廠商戮力開發(fā)新應(yīng)用 晶片立體堆疊技術(shù)未來可期,新電子雜志
[11]TSV 3D IC面臨諸多挑戰(zhàn),DIGITIMES
[12]一文看懂3D NAND Flash,超能網(wǎng)
[13]3D DRAM Makers Inch CloserTo Production,SemiEngineering
注1:與依靠晶體管傳遞電氣信號的邏輯芯片(如CPU)不同,大部分存儲器依靠核心單元中電荷的多寡區(qū)分“0”和“1”,用這種手段來存儲信息。隨著存儲器2D平面(也就是不堆疊的一塊晶圓)微縮進(jìn)入納米制程,這種運(yùn)行機(jī)制帶來的不穩(wěn)定性越發(fā)凸顯:
用于存儲電荷的單元越小,電荷越容易跑出去,也就是我們常說的“漏電”,最終的結(jié)果是數(shù)據(jù)錯誤,可靠性下降。問題并非不可解決,也就是用更先進(jìn)的制程。但這樣做的話,成本也會大幅度提高。
蘋果的A系列芯片已經(jīng)用上了3nm制程,但主流的存儲芯片還在“考慮”是否應(yīng)用10nm。
注2:作為存儲器市場最大的兩個品類,NAND閃存和DRAM垂直堆疊上有相似之處,但也有不同的地方:
NAND閃存是存儲器陣列(memory array)堆疊,字位線(bitline)豎著做,可以想象成公寓樓的架構(gòu)。目前,主要的生產(chǎn)商已經(jīng)堆疊到了300層。根據(jù)最新可查的信息,長江存儲的NAND閃存已經(jīng)堆疊到了232層,達(dá)到了國際一流水平。
但3D DRAM堆疊的難處在于,電容器是柱狀結(jié)構(gòu),要從豎著做變成橫著放,字位線也要相應(yīng)的豎著做,與NAND堆疊難度不在一個級別。
伴隨爾必達(dá)破產(chǎn),3D DRAM曇花一現(xiàn)便被束之高閣,廠商們繼續(xù)著DDR內(nèi)存規(guī)格的迭代升級,尋找著除了2D平面微縮之外提高存儲顆粒密度的其他辦法,比如從傳統(tǒng)的6F2架構(gòu)改成4F2架構(gòu)等。
NAND閃存堆疊方法
DRAM堆疊方法
本文(含圖片)為合作媒體授權(quán)創(chuàng)業(yè)邦轉(zhuǎn)載,不代表創(chuàng)業(yè)邦立場,轉(zhuǎn)載請聯(lián)系原作者。如有任何疑問,請聯(lián)系editor@cyzone.cn。