FOMO研究院電子報

FOMO研究院電子報

HBM DRAM不夠用?NVIDIA 記憶體分層革命? SSD當記憶體? - 深入分析第53期:NAND Flash控制器 (慧榮 SIMO,群聯)

KP@FOMOSoc's avatar
KP@FOMOSoc
Jun 24, 2026
∙ Paid

過去大半年,整個 AI 產業都意識到,算力已經不再是唯一的瓶頸。真正卡住所有人、讓運算效率無法提升的,是記憶體。

記憶體晶片不僅容量不夠,而且價格極其昂貴。

在硬體成本高企的今天,如何用更聰明、更省錢的方法解決「記性」的問題,成了所有科技巨頭與新創公司最迫切想解開的謎題。

現在的新方向是,不能只靠堆疊更多昂貴的 HBM 和 DRAM,必須讓相對便宜、容量大的 SSD 扮演更接近記憶體的角色。

這也意味著,SSD 不再只是傳統意義上的儲存裝置,而是被拉進記憶體階層。

在SSD被重新定義的情況下,我們會看到甚麼價值的重新分配?


第一章|AI 的閱讀筆記:KV Cache、Prefill 與 Decode

在早期,AI 的任務很單純,就像一個應付考試的學生,只要負責把書讀熟、把模型練好就行。那時候,大家比的是誰算得快,也就是誰的GPU更強。

但現在,AI 被推上了真實的工作崗位。
它被要求讀完一整本法律合約、要記住一段長達數小時的對話脈絡,甚至要像一個秘書一樣,記得自己前幾步做了什麼。

此時的 AI,不再只是一個快速回答問題的考生,而是一個需要處理堆疊如山卷宗的研究員。

考生的腦袋轉得快就行,但研究員更需要一張足夠大的書桌,以及一套能神速調閱資料的索引系統。

如果書桌不夠大,再聰明的研究員也只能一次讀一頁,效率自然慢了下來。

要看懂這張書桌是怎麼限制 AI 的,我們得先跟著它走一遍工作流程。


1.1 Prefill 與 Decode:兩個截然不同的階段

Prefill and Decode for Concurrent Requests - Optimizing LLM Performance

AI 在接到一段任務時,工作其實被拆成了兩個個性截然不同的階段。

第一階段叫做預填(Prefill)。

這是AI剛拿到大篇幅提示詞的時刻。他需要從頭到尾快速瀏覽一遍,並在旁邊寫下閱讀筆記。

這個動作的特點是需要一次處理極大體積的資料,可以進行高度的平行運算。這正是前述 GPU 利用率衝上九成的黃金瞬間,算力在這裡得到了最充分的釋放。

第二階段叫做解碼(Decode)。

AI開始動筆寫下答案。這裡有一個特別的限制:它每寫下一個新字,都必須回頭把剛剛寫好的筆記重新翻閱一遍,才能決定下一個字該寫什麼。

這個動作只能一個字、一個字接著寫,無法同時進行。此時,晶片不再需要極致的運算速度,它唯一需要的,是能多快把那疊筆記翻過一頁。

這就是為什麼GPU利用率會大幅下跌,因為它一直在等待筆記被搬運過來。

這疊被反覆翻閱的閱讀筆記,在技術上被稱為 KV Cache(鍵值快取)。

KV Cache 的功能非常單純,它把AI讀過每個字所產生的理解記錄下來,如此一來,寫下一個字時就不需要把整本書重新讀一遍。這是一種典型的用空間換取時間的策略,寧可把筆記鋪滿整張書桌,也不要每寫一個字就重讀一次全書。


1.2 KV Cache 與 HBM 的記憶體危機

然而,這疊筆記的體積大得超乎想像。光是一段不算長的幾千字對話,產生的筆記就超過1GB。

當我們將這個數字乘上長上下文(動輒幾十萬 Token),再乘上同時在線的成千上萬名使用者時,那塊昂貴且容量極小的 HBM,會在瞬間被這些筆記徹底塞爆。

當手邊的 HBM 裝不下那疊龐大的 KV Cache 筆記時,工程師面臨了兩個選擇。

第一個選擇,是把舊的筆記丟掉。

但如果後面又需要用到,AI 就必須把整本書重新讀一遍、重新做一次筆記。在 AI 的世界裡,重新運算的代價,遠比調閱資料還要昂貴。

因此,如何把筆記暫時收進樓下的地下書庫,並在需要時夠快地拿回來,成了大家努力的方向。


1.3 業界的新方向:預填與解碼分離

Aikipedia: Prefill–Decode Disaggregation – Champaign Magazine

第二個選擇,是業界正在嘗試的新架構:預填與解碼分離(Prefill / Decode Disaggregation)。

既然「讀書做筆記」與「逐字寫答案」是兩種完全不同性質的工作,那就不要讓同一顆晶片同時負擔這兩件事。

業界開始把這兩個步驟拆分到不同的伺服器上。負責讀書的專心讀書,負責寫字的專心翻筆記,彼此互不干擾。

這個想法很好,但當我們把做筆記與用筆記的晶片拆開後,那疊厚厚的筆記,就必須在不同的伺服器之間來回高速搬運。

繞了一圈,問題又回到了起點:

這疊永遠放不進 HBM、又絕對不能輕易丟棄的龐大筆記(KV Cache),到底該存放在哪裡,才能兼顧成本與速度?


第二章|記憶體金字塔與 DRAM 飢荒

這時,我們就必須重新審視這間供 AI 工作的「圖書館」了。

在這個空間裡,原本存在著多種不同級別的儲存位置:

Beyond HBM: Why 3D-Stacked SRAM Is Becoming Critical to AI Processor  Architecture

譯者的手邊(HBM,高頻寬記憶體):

這是 AI 手上正攤開、正在閱讀的那一頁。它的速度極快,但容量小得可憐,而且價格十分昂貴。

面前的書桌(DRAM,動態隨機存取記憶體):

這是 AI 面前的桌面。它的速度同樣很快,但依然放不下太多東西。

樓下的地下總書庫(NAND SSD / 網路共享儲存):

這裡的空間海量、價格便宜,但要把書從樓下調上來,得花費比較多的時間。

既然越近越好,最直覺的解決辦法就是多買一些最頂層的記憶體。

如果把 HBM 堆滿,把 DRAM 加到極限,讓 AI 的書桌大到用不完,問題不就解決了?

道理沒錯,但這條路被一件極其現實的事堵死了,那就是 HBM 和 DRAM 的價格與產能限制。

隨著 AI 運算規模爆發,AI 晶片極度依賴最頂端的 HBM。然而,HBM 的製造工藝極其複雜,需要將多層 DRAM 晶粒垂直堆疊,這消耗了大量的全球晶圓產能。

生產每一 GB 的 HBM,大約會消耗掉傳統 DDR5 記憶體三倍的晶圓產能。

這導致了嚴重的連鎖反應:晶片大廠將產能大量轉向利潤更高的 HBM,進而抽乾了標準 DRAM 的產能,引發了結構性的記憶體短缺與價格儲存成本飆漲。

面對這個「高速記憶體又貴又缺,但 AI 資料量卻越來越大」的殘酷現實,科技巨頭們開始尋找新的出路:

如何讓便宜、容量大但速度慢的 SSD(快閃記憶體),去扮演高昂 DRAM 的角色?

這不再只是單一廠商的嘗試,而是整個晶片產業的共識。


2.1 AMD 與 NVIDIA 的新解法

例如,AMD 在 2026 年 6 月收購了記憶體優化新創公司 MEXT。

MEXT 的核心技術就是利用 AI 演算法,精確預測哪些資料即將被使用,並提前將資料從便宜的 SSD 搬移到 DRAM 中。

而在2026年年初,NVIDIA 提出了記憶體分層架構(CMX(Context Memory Storage,脈絡記憶體儲存)平台)。

NVIDIA 決定在「書桌(DRAM)」與「地下書庫(傳統硬碟)」之間,硬是蓋了一個「專屬的小書架」,也就是名為「G3.5」的脈絡記憶體層。

這個 G3.5 樓層的核心就是 CMX 平台。它是一個由高速快閃記憶體組成的硬體陣列,並透過以下幾位「圖書館管理員」的通力合作,實現了極高效率的運作。


2.2 CMX 平台的四大關鍵角色

軟體指揮官(NVIDIA Dynamo 與 NIXL):

這套推理框架與傳輸函式庫扮演了「有預知能力的調度員」。它們會預判 AI 接下來要講什麼話,在 AI 還沒開始處理之前,就提前把需要的短期記憶從 CMX 小書架(G3.5)搬回書桌(G2)或 AI 手上(G1)。

硬體快遞員(BlueField-4 DPU):

這顆專用的資料處理器負責管理所有的傳輸交通。它能以極高效率處理網路與硬碟協定,讓資料傳輸走專用綠色通道,完全不佔用主機 CPU 的運算資源。

空間規劃師(NVIDIA Grove):

當多個 AI 任務在不同電腦之間切換時,它會確保工作被分配到離資料最近的機櫃,讓 AI 可以秒速套用之前的記憶,不需要重新搬運。

高速氣送管(Spectrum-X 乙太網路):

這項網路技術負責將運算晶片與 CMX 儲存節點緊密連結,提供極低的延遲與超高頻寬,讓這個由快閃記憶體組成的共享書架,能像本地記憶體一樣快速反應。


2.3 CMX 實現的三大根本改變

Understanding CMX in AI Workloads

在 CMX 平台加入後,NVIDIA 實際上實現了一套高效的「記憶體分層(Memory Tiering)」機制,徹底解放了最昂貴的硬體資源:

HBM(G1 核心層)得到了解放:

現在,HBM 不需要再硬塞幾百 GB 的對話小抄,它只保留最核心的 AI 模型本身,以及當下正在處理的那個字的 KV 快取。

這讓 GPU 可以專心釋放算力,跑出極致的運算速度。

CMX(G3.5 延伸層)承接海量記憶:

那些前幾分鐘聊過、等一下可能還會用到的海量 KV 快取,會被分流到由超高速 NVMe SSD 組成的 CMX 平台上。

在整個機櫃(Pod)的規模下,CMX 能為 GPU 提供太位元組(TB)級別的共享空間。

無感知的預載機制(Prestage):

當 AI 準備回答下一句話時,BlueField-4 DPU 與 Dynamo 軟體會提早一步,將等一下要用的小抄從 CMX 預先載入到 HBM 中。

由於 Spectrum-X 網路搭配了 RDMA(遠端直接記憶體存取)技術,整個傳輸過程完全不需要驚動主機 CPU 進行審核,速度幾乎與本地 DRAM 一樣快,徹底消除了 GPU 坐在那裡發呆等待資料的閒置時間。


2.4 智慧夾層的共享優勢

回到圖書館的比喻,NVIDIA 沒有去擴大譯者手上的工作紙張,也沒有更動樓下那間慢吞吞的中央書庫。

他們在兩者之間蓋了一個「智慧夾層」(G3.5),並配備了一條專屬的氣送管(Spectrum-X 網路)與一位極其敏捷的專職助手(BlueField-4 DPU)。

當 GPU 寫完一部分草稿後,助手會立刻將這些草稿收進夾層中。當 GPU 需要引用前文時,助手能搶在 GPU 開口前,將草稿透過氣送管精確地送回桌上。

最關鍵的是,這個夾層是共享的。整棟大樓裡的所有 AI 都可以隨時調閱彼此存放在夾層中的脈絡資料。

如果 GPU A 累了,GPU B 接手時,能立刻從夾層中調出先前的草稿繼續工作,完全不需要重新詢問讀者問題,也不需要每個人都跑回地下總書庫重新調閱。


第三章|NAND 為什麼非要控制器不可?

所以我們知道了,現在業界的方向是將 SSD 扮演 DRAM。

但在過去一年的記憶體狂潮中,其實還是有很多投資者仍然在問:

「SSD(固態硬碟)跟 NAND Flash(快閃記憶體)到底有什麼不同?它們跟 DRAM 又差在哪裡?」

要搞懂這點,我們得先釐清一個最基本的關係:

  • NAND Flash 是「麵粉」(原料): 它是一種半導體晶片,負責儲存資料,但它天生有缺陷,無法直接拿來用。

  • SSD 是「麵包」(成品): 它是把 NAND Flash 晶片,加上「控制器大腦」與電路板組裝在一起後,可以直接插在電腦上使用的完整硬碟。

搞懂了這個關係,我們再來拆開「DRAM」與「NAND Flash」這兩大晶片陣營,在物理本質、身價以及技術難度上的巨大鴻溝。


3.1 DRAM 與 NAND:平房 vs 摩天大樓的成本鴻溝

Why Memory Matters: The Role of DRAM, NAND Flash, and HBM in Modern  Computing | by June_0 | Medium

在半導體的世界裡,DRAM(動態隨機存取記憶體,包括 HBM)與 NAND Flash(快閃記憶體)是兩條完全不同的演化支線。

它們最本質的差異,可以用一個極其簡單的物理規律來解釋:一個只能蓋平房,另一個卻能蓋摩天大樓。

DRAM 追求的是極致的速度。

  • 為什麼貴? DRAM 的結構是利用微小的「電容器」來儲存電荷。因為要跟 CPU/GPU 進行奈秒級的極速對話,它的製造工藝要求極高,就像在晶片上鋪設完美的磁浮軌道。

  • 主要的限制: 這種高精度的電容器結構極難往上堆疊。這意味著 DRAM 在晶片上只能蓋「平房」。既然地皮(晶圓面積)有限,你又不能往上蓋,想要更多容量就只能買更多地皮,這導致 DRAM 的每單位容量成本極其昂貴。

NAND 追求的是極致的容量與低成本。

  • 為什麼便宜? NAND 的物理結構允許科學家像蓋摩天大樓一樣,把儲存單元一層一層「垂直堆疊」上去(這就是 3D NAND)。

  • 主要的好處: 如今的 NAND 技術已經可以輕鬆疊到 200 層、甚至 300 層以上。

在同樣大小的地皮(晶圓面積)上,DRAM 只能蓋 1 層平房,NAND 卻能蓋 300 層大樓。

分攤下來,NAND 的每單位容量造價,自然便宜到只有 DRAM 的幾十分之一。

簡單來說:

  • DRAM 賣的是「速度與造路工藝」,因為只能蓋平房,所以容量小、身價極貴。

  • NAND 賣的是「空間與堆疊技術」,因為能蓋摩天大樓,所以容量超大、身價便宜。

這也決定了它們在電腦裡的命運:DRAM 負責在第一線陪著處理器瘋狂飆速,而 NAND 則在後方默默當個容量巨大的便宜倉庫。


3.2 裸 NAND 的三大問題

當 CPU 或 GPU 想要讀寫 DRAM 時,它們是直接「點名」的。

DRAM 的每一個儲存單元都有一個完美的、固定的物理地址,就像圖書館裡編號永遠不變的抽屜。

GPU 說要看第 100 號抽屜,DRAM 就能在幾奈秒內精準打開。DRAM 本身非常聽話、不掉資料、不會磨損,因此它不需要任何中間人,可以直接與處理器對話。

但 NAND 就完全是另一回事了。裸 NAND(Raw NAND)本身是一個脾氣極其暴躁、充滿物理缺陷的「問題兒童」:

  1. 它會磨損: 電子每次強行進出,都會對晶片結構造成微小的破壞。寫入次數多了,晶片就會「漏風」,這個區域就報廢了。

  2. 它不能直接覆寫: DRAM 可以隨意修改單一字元,但 NAND 不行。NAND 的讀寫是以「頁(Page)」為單位,但擦除卻必須以極大的「區塊(Block)」為單位。這就像你想修改筆記本上的一個錯字,卻必須把整頁用橡皮擦擦掉重寫一樣。

  3. 它隨時會寫錯(Bit Error): 隨著使用時間變長,電子會亂跑,導致原本寫入的 1 莫名其妙變成 0。


3.3 控制器與 FTL:把問題兒童包裝成穩定 SSD

Choosing the right NAND | Micron Technology Inc.

為了解決這個問題,每一顆 SSD 內部,都必須配備一位「貼身管家」:控制器晶片(Controller),以及運行在裡面的靈魂軟體 FTL(Flash Translation Layer,快閃轉譯層)。

這個管家的工作,就是當一個「超級騙子兼翻譯官」。

當電腦想要寫入資料到「邏輯位址 A」時,管家不能直接寫在 A,它得在後台默默做以下幾件事:

  • 平均抹寫(Wear Leveling): 算好每一塊黏土板被刻過幾次,刻意把新資料寫到比較少用的板子上,免得某些板子先被「刻穿」報廢。

  • 垃圾回收(Garbage Collection): 趁電腦不注意時,把那些零碎、沒用的資料挑出來,集中搬移,騰出乾淨的整塊空間以便下次擦除。

  • 錯誤修正(ECC): 隨時拿著放大鏡檢查字跡,發現有電子漏網、字跡模糊時,立刻用演算法把正確的字還原回來。

最後,管家再和電腦說:「報告主機,資料已經安全寫入 A 了!」


3.4 為什麼 DRAM 可以直連、NAND 卻需要保姆?

簡而言之,DRAM 可以直接與處理器對話;而 NAND 必須依賴「控制器晶片 + FTL 軟體」這個中間角色,才能被穩定且有效地使用。

這個「保姆」機制,讓原本問題重重的裸 NAND,變成了一種可靠、便宜且容量巨大的儲存解決方案。

它不只負責資料的正確讀寫,還要處理磨損、錯誤修正、以及邏輯位址與物理位址的轉換等複雜工作。

正因為控制器在 SSD 中扮演如此關鍵的角色,當我們希望 SSD 能夠承擔更多原本由 DRAM 負責的工作時,控制器的能力就成為決定成敗的重要因素。


第四章|從零售、雲端到 AI:儲存架構的演進

在深入探討 SSD 之前,我們必須先釐清一個最根本的疑問:為什麼過去的儲存架構不需要這麼複雜?

要理解這個改變,我們得把時間拉長,看看儲存架構在「消費級零售時代」、「傳統資料中心時代」以及當下的「AI 時代」經歷了怎樣的蛻變。


4.1 第一階段:消費級零售時代(單兵作戰與被動儲存)

Keep reading with a 7-day free trial

Subscribe to FOMO研究院電子報 to keep reading this post and get 7 days of free access to the full post archives.

Already a paid subscriber? Sign in
© 2026 FOMO研究院 · Privacy ∙ Terms ∙ Collection notice
Start your SubstackGet the app
Substack is the home for great culture