圍攻NVDA霸權，UALink與ESUN的聯盟戰爭是甚麼？ALAB為何躺槍？- 深度分析第16期：NVDA護城河 (上)

KP@FOMOSoc

Oct 23, 2025

∙ Paid

如今，每個人都懂得說，NVIDIA是AI時代的終極玩家，擁有極強的護城河。

但是，究竟所謂的「護城河」是什麼？

是那件標誌性的黑色皮衣，是突破天際的市值，還是那塊被譽為AI時代「石油」的GPU？

答案都是，但都只觸及了帝國的冰山一角。

如果NVIDIA的霸權僅建立在最快的GPU晶片上，那這王座並不堅固，畢竟競爭者未必不能設計出更強的晶片。

然而，至今無人能撼動其根基的答案在於：NVIDIA建立的並非孤立的城堡，而是一系列深不見底的護城河所拱衛的龐大帝國系統。而當中有兩項最為突出：

第一道護城河：硬體帝國。
這是一道看得見、摸得著的壁壘。NVIDIA賣的不僅僅是地表最強的引擎（GPU），更是整台預先調校至極限的「冠軍賽車」（DGX系統）。而將數百、數千顆引擎完美協同，讓它們如單一巨獸般思考的，正是其專有的「心電感應系統」——NVLink與InfiniBand。
第二道護城河：軟體靈魂。
這是一道看不見，卻更為致命的壁壘。如果硬體是帝國的軀體，那麼CUDA就是它的靈魂與作業系統。過去十五年，全世界的AI開發者都在這個系統上撰寫程式、建立模型、開創未來。它形成了一種巨大的「鎖定效應」，讓轉換平台的成本變得難以想像。

這兩條護城河都極其深廣，一篇文章不可能將兩部分全部為大家分析完畢。

因此，這篇文章是「NVIDIA護城河」分析的上篇。

我們將首先解構那道引發了整個行業「圍城之戰」的第一道護城河——硬體帝國。在這趟旅程中，我們將深入探討以下幾個核心問題：

兩種建構哲學： AI超級電腦的兩種建構哲學：Scale-up（向上擴展）與Scale-out（向外擴展）的根本分歧是什麼？
NVIDIA的答案： NVLink與InfiniBand如何作為NVIDIA的「雙重壁壘」，打造出一個封閉但極致高效的硬體帝國？
挑戰者的集結： 「反NVIDIA聯盟」是如何集結的？他們試圖用來攻城的武器——Ultra Accelerator Link (UALink)——又是什麼？
聯盟的內戰： 為何更務實的「乙太網路方案 (ESUN)」會半路殺出，與理想主義的UALink形成直接對抗？
意外的傷者： 在這場聯盟內戰中，Astera Labs (ALAB)為何會成為最尷尬的角色？
終局的預判： 在這場「開放標準」的內戰中，誰是真正的贏家？以及為何這場戰爭的最終結果，可能依然是鞏固了NVIDIA的王座？

然後在下星期的「下篇」中，我們將會深入分析，為何CUDA是NVIDIA最深的護城河。

第一章：互連的飢餓遊戲——Scale-up與Scale-out的宿命對決

如今，AI這頭猛獸的飢餓感，正從對「純粹算力」的渴求，轉向對「高效連接」的極度依賴。

簡單來說，一塊GPU再強，也需要將成千上萬的GPU連在一起共同工作。這引出了一個根本性的問題：當我們擁有了地表最強的F1賽車引擎（GPU），卻要讓它跑在崎嶇的鄉間小路上，會發生什麼？

答案是災難性的。引擎的轟鳴只會化為無謂的噪音，強大的動力將在擁堵與延遲中消磨殆盡。AI革命的真正瓶頸，已悄然從「晶片運算的速度」，轉向了「晶片之間通訊的頻寬」。

一台頂尖的AI伺服器，就是一輛終極F1賽車。

它體內裝載著8個、甚至16個頂級GPU，每個都如同一顆小型核融合反應爐。要讓這些猛獸般的能量核心協同作戰，需要的絕非普通道路，而是一條能夠承受極致速度、擁有超大頻寬、且專為它們設計的「神經傳導賽道」。

究竟如何建立這條「AI高速公路」？有兩種哲學。

Scale Up vs Scale Out: System Scalability Strategies | simplyblock

向上擴展 (Scale-up)：鑄造單一的超級英雄

向上擴展的哲學，是將一台伺服器打造成一位「超人」。

它的目標是將盡可能多的GPU（力量核心）整合進一個單一機箱（軀體）內，並讓它們像一個統一的大腦般思考，創造出被稱為「超級節點」（Supernode）的運算巨獸。

成功的關鍵，在於軀體內部的「中樞神經系統」。這個系統必須快到讓每個GPU都能直接讀寫另一個GPU的記憶體，就像左手能瞬間感知到右手的觸覺一樣，這就是所謂的「記憶體語意（Memory Semantics）」。

相反，如果大腦傳遞給手臂的訊號慢了半拍，超人的力量就無從發揮。

Scale-up的終極理想，是將8個獨立的GPU，融合成一個擁有8倍力量、統一的「超級GPU」。

橫向擴展 (Scale-out)：組建一支復仇者聯盟

橫向擴展的哲學，則更像是組建一支「復仇者聯盟」。當單個超級英雄的力量不足以應對末日級的任務時，我們需要的是一支由眾多英雄組成的團隊。

這個策略是將成百上千台獨立的伺服器（超級英雄），透過一個巨大的網路（通訊系統）連接起來，讓他們分工協作，共同禦敵。

我們熟知的Google搜尋、雲端服務等，都是建立在這種架構之上，它依賴的是乙太網路（Ethernet）或InfiniBand這樣的「城際高速公路」。

戰爭的焦點：超級英雄的內部設計圖

當今的AI資料中心正是混合了這兩種哲學：先不計成本地鑄造出無數「超人」級的超級節點（Scale-up），再用高速網路將其連成「超級英雄軍團」（Scale-out）。

然而，當下最激烈的戰爭並非發生在連接英雄的「城際高速公路」上，而是在單一超人的軀體內部。「如何設計超人體內的中樞神經系統」已成為兵家必爭之地。

在這裡，奈秒（nanosecond）級的延遲和TB/s級的頻寬，是決定勝負的唯一標準。

多年來，NVIDIA憑藉其專有的NVLink技術，近乎壟斷了這張「超級英雄設計圖」。

本章小結

瓶頸轉移：AI發展的瓶頸已從單純的晶片算力，轉向了大規模GPU之間的高效通訊頻寬。
兩種哲學：構建AI超級電腦存在兩種核心思路：Scale-up（向上擴展，將單一伺服器打造成極致強大的「超級節點」）與Scale-out（向外擴展，用網路連接成千上萬的伺服器）。
戰爭焦點：當前行業競爭最激烈的戰場，在於Scale-up的內部設計，即如何讓一個機箱內的8個或16個GPU像「單一大腦」般協同工作。

投票時刻：選出下星期你最想看到的主題

在進入下一章之前，付費會員們可以先進行下星期主題的投票。上兩次放在最後投票率不高，這次試試放在較前的位置看看。

投票將在 3天後 結束。

現在，輪到你了。請投下你神聖的一票！

第二章：從單一引擎到多腦神經網絡：NVLink與NVSwitch的共生進化

當我們在新聞上看到NVIDIA發布像B200這樣的「超級晶片」時，很多人會以為它就是一塊巨大、單一的晶片。但這個想法，其實只說對了一半。

與其說它是一塊晶片，不如把它想像成一整套預先組裝好、調校到極致的「冠軍賽車的動力心臟」。NVIDIA賣給客戶的，從來不是單獨的引擎零件，而是這套能直接放上賽道奪冠的「動力總成」。

現在，就讓我們打開發動機蓋，看看這個「動力心臟」裡到底有哪些神奇的零件，以及它們如何從「單打獨鬥」走向「集體作戰」。

第一層：單一「動力心臟」的內部構造

NVIDIA Hopper Architecture In-Depth | NVIDIA Technical Blog

這是一顆引擎本身的核心設計，決定了它能爆發多大的基礎馬力。

CUDA 核心：引擎的「汽缸與活塞」
- 這是提供最原始運算力的基礎員工，數量成千上萬。就像引擎的汽缸數越多，基礎排氣量越大一樣，它們是所有運算力的根本來源。
Tensor Core (張量核心)：專為 AI 加速的「渦輪增壓器」
- 這是NVIDIA的王牌。如果說 CUDA 核心是自然進氣引擎，那張量核心就是一顆強大的渦輪。它不處理雜事，只專注於 AI 最核心的數學運算，一旦啟動，就能讓 AI 任務的速度呈倍數飆升。
Transformer 引擎：渦輪增壓的「智慧控制器」
- 光有渦輪還不夠，還需要聰明地使用它。這個引擎就像一個智慧電腦，它會判斷路況（計算任務），然後精準控制渦輪何時該用「高辛烷值」的精確模式，何時可以切換到「省油」的效率模式，在不影響結果的前提下，把速度和效能發揮到極致。
HBM (高頻寬記憶體)：緊貼引擎的「超高速燃料泵浦系統」
- 再強的引擎，如果燃料跟不上也是白搭。HBM 並不是引擎本身的一部分，而是由數個記憶體晶片堆疊起來，像「燃料塊」一樣，被「黏」在引擎本體的正隔壁。它們之間有數千條私密的超高速通道，確保海量的 AI 資料（燃料）能被瞬間灌入引擎，讓渦輪全速運轉不空轉。

第二層：從「單一引擎」到「冠軍車隊」的鴻溝

到這裡，我們有一顆極其強大的「動力心臟」。但面對訓練現在的史詩級 AI 模型，一顆引擎的力量是遠遠不夠的。你需要一個由 8 顆、16 顆甚至更多引擎組成的「超級引擎矩陣」。

這時，最大的難題出現了：如何讓這 8 顆引擎像「一顆」引擎那樣完美無瑕地協同工作？

要理解NVIDIA的答案有多麼革命性，我們必須先看看傳統的方式——這也是其他競爭對手（以及過去的NVIDIA）所依賴的方式。

傳統方式 vs. NVIDIA之道：公共道路 (PCIe) vs. 私人高速 (NVLink)

傳統方式：走走停停的「公共道路系統」(PCIe)
- 比喻： PCIe（Peripheral Component Interconnect Express）就像城市裡的公共道路。它用途廣泛，必須服務所有人——顯示卡、網卡、硬碟……所有設備的數據都在上面跑。
- 數據路徑： 當兩顆 GPU 需要透過 PCIe 溝通時，數據的路徑通常是：GPU 1 → CPU → GPU 2。CPU 在這個過程中扮演了「交通警察兼轉運站」的角色。數據必須先繞道進入 CPU，再由 CPU 轉發給另一顆 GPU。
- 問題所在： 這條路徑不僅繞遠路，且CPU這個「轉運站」本身就是巨大瓶頸，其處理速度遠跟不上GPU龐大的數據交換需求。這就像讓F1賽車手用郵局信件溝通戰術，緩慢且低效。以當時最先進的PCIe 5.0為例，其約128 GB/s的雙向頻寬，在GPU世界裡是「塞車」等級的速度。
NVIDIA之道：具備「心電感應」的私人高速公路與中央交通樞紐
1. 第一步：建造「私人高速公路」(NVLink)
  - 比喻： NVLink 是NVIDIA為自家 GPU 車隊修建的專屬、私密、點對點的超級高速公路。數據可以直接在 GPU 1 ↔ GPU 2 之間傳輸，完全繞過了 CPU 這個「慢速轉運站」。它實現了賽車隊夢寐以求的「心電感應」。以 Hopper 架構的 NVLink 4.0 為例，它提供了 900 GB/s 的總頻寬，是 PCIe 5.0 的 7 倍之多。
2. 第二步：建造「巨型智慧交通樞紐」(NVSwitch)
  - 問題浮現： NVLink 完美解決了兩顆 GPU 的通訊，但如果我們有 8 顆、16 顆 GPU 呢？如果要在每兩顆 GPU 之間都修建一條 NVLink 私人高速，那整個系統將被錯綜複雜的交流道塞滿，成本和複雜度將呈指數級增長。
  - NVIDIA的終極答案： NVSwitch 就此登場。它就像是在所有 8 條或 16 條私人高速公路的中心，建造了一個巨大無比、極其智慧的「圓環交通樞紐」。
  - 工作原理： 每一顆 GPU 都用自己的 NVLink 高速公路連接到這個中央樞紐上。當 GPU 1 想與 GPU 7 通訊時，NVSwitch 會瞬間為它們建立一條暢通無阻的臨時專線，同時還能讓 GPU 3 和 GPU 5 進行全速通訊，彼此絕不干擾。
  - 壓倒性優勢： NVSwitch 讓一個機箱內的所有 GPU 形成了一個「全互聯」的超級節點。任何一顆 GPU 都可以用 NVLink 的完整速度與任何另一顆 GPU 進行通訊，就像它們都彼此相鄰一樣。這讓 8 顆 GPU 真正化身為一個由 8 顆引擎驅動的、思想統一的巨大戰爭機器。

第三層：護城河的深度 — NVIDIA的交通建設到底領先多少？

內部I/O：新世代PCIe與NVLink實用化，倍增傳輸頻寬】伺服器核心I/O架構大進化| iThome

剛剛我們用比喻解釋了NVIDIA的「私人高速公路 (NVLink)」和「智慧交通樞紐 (NVSwitch)」。現在，讓我們用冰冷的數字來衡量，這套系統到底有多麼不可思議，以及它如何構成了NVIDIA最深的一道硬體護城河。

與「公共國道 (PCIe)」的比較：不是更快，是不同次元
- NVIDIA最新的第五代 NVLink，其雙向總頻寬高達 1.8 TB/s。這是什麼概念？它比當前最快的公共國道 PCIe 5.0 (128 GB/s) 整整快了 14 倍。這不是 F1 賽車和普通轎車的區別，這是 F1 賽車和自行車的區別。
與競爭對手的「私家橋 (如 AMD Infinity Fabric)」比較：規模的絕對壓制
- 競爭對手也意識到問題，開始建造自己的私家橋。以 AMD 的 Infinity Fabric 為例，其在不同 GPU 封裝之間的互連頻寬最高僅約 100-200 GB/s。這與 NVLink 5.0 的 1.8 TB/s 相比，存在著數量級的差距。
- 但更致命的是「規模」。由於缺乏像 NVSwitch 這樣的「巨型交通樞紐」，AMD 的系統最多只能有效連接 8 座工廠（GPU）。而NVIDIA的 NVL72 系統，可以將 72 顆 GPU 視為一個統一的整體。這是 8 vs 72 的系統級差距。
與「開放標準橋樑聯盟 (UALink)」的比較：現實與藍圖的差距
- 為了對抗NVIDIA的壟斷，AMD、Intel、Google 等公司組成聯盟，計畫打造一套名為 UALink 的「開放式標準橋樑」。
- 問題是，截至目前，這座「未來之橋」還停留在紙上，連一根橋墩都還沒建起來。而NVIDIA的 NVLink 大橋和 NVSwitch 樞紐已經迭代了五代，在全球成千上萬的資料中心裡穩定運行了近十年。

這就是NVIDIA的致勝關鍵。當競爭對手還在思考如何打造一顆更快的 GPU 引擎時，NVIDIA已經透過 NVLink + NVSwitch 的組合，打造了一個無與倫比的「冠軍車隊協同作戰系統」。

第四層：共生進化的宏偉藍圖 — 從 Hopper 到 Rubin

NVIDIA的設計哲學，是一場「整體進化」。如果只升級了引擎的渦輪（Tensor Core），卻沒有拓寬心電感應的頻寬（NVLink），那麼強大的引擎們就會因為溝通不良而互相等待。

這條「引擎大腦」與「神經系統」同步進化的路徑，清晰地展示了從「單腦冠軍」走向「多腦集合體」的宏偉藍圖。

Nvidia teases Rubin GPUs and CPUs to succeed Blackwell in 2026 | ZDNET

Hopper 架構 (2022)：奠定霸權的「單腦冠軍」
- Hopper 是「單晶片設計」的巔峰之作，一顆完美、巨大且強悍的「單一核心大腦」。它與 NVLink 4.0 (900 GB/s) 的結合，首次讓 8 顆 GPU 能以前所未有的效率協同工作，奠定了NVIDIA的絕對霸主地位。
Blackwell 架構 (2024)：「雙腦合一」的次世代革命
- 當「單一大腦」的物理尺寸逼近極限，NVIDIA將兩個頂尖大腦「黏」在一起，創造出「雙晶片」設計的 Blackwell。
- 對內： 透過一條名為 NV-HBI (NVIDIA High-Bandwidth Interface) 的晶粒內(die-to-die)互連技術，以高達 10 TB/s 的驚人頻寬，將兩顆晶片「縫合」成一個對外統一的「雙腦專家」。這就像連接左右腦的「胼胝體」。
- 對外： 為了餵飽這個胃口加倍的「雙腦專家」，對外的 NVLink 5.0 頻寬直接翻倍至 1.8 TB/s。這就像為 72 位「雙腦專家」建立了一個「集體心電感應矩陣」，讓他們像一個擁有 144 個腦葉的單一超級大腦一樣運作。
Rubin 架構 (預告 2026) & Rubin Ultra (預告 2027)：邁向「多腦」的未來藍圖
- Rubin (2026)： 延續「雙腦專家」的成功，但引擎更強。與之配套的 NVLink 6.0 頻寬預計將再次翻倍至 3.6 TB/s。
- Rubin Ultra (2027)： 這是更激進的飛躍，從「雙腦」進化到「四腦（Quad-Chiplet）」。這時，挑戰不再僅僅是頻寬，而是如何指揮一個機櫃內由數百個GPU晶粒所組成的龐大系統協同作戰。

結論：封閉但極致高效的「神經系統」壁壘

從 Hopper 的「單腦冠軍」，到 Blackwell 的「雙腦合一」，再到 Rubin Ultra 的「四腦集合體」，這條清晰的進化路徑揭示了NVIDIA的戰略核心：計算核心的數量和架構（大腦）在演進，指揮它們的神經系統（NVLink）也必須同步進化。這是一個有因有果、充滿邏輯力量的「共生進化」。

NVLink 這套專有的「神經系統」，確保了只有NVIDIA自家的「大腦」才能無縫接入，享受這種極致的互連效率。這道由系統工程、架構設計和前瞻性佈局共同打造的硬體壁壘，構成了NVIDIA帝國最深邃、最堅固的護城河。

本章小結

NVIDIA之道：NVIDIA透過專有的NVLink（GPU間的私人高速公路）和NVSwitch（智慧交通樞紐），徹底解決了傳統PCIe的瓶頸，實現了機箱內GPU的「全互聯」。
壓倒性優勢：NVLink的頻寬是PCIe的十幾倍，NVSwitch的架構更讓NVIDIA系統的擴展規模遠超競爭對手，形成了代際領先。
共生進化：NVIDIA的GPU架構（從Hopper到Blackwell再到Rubin）與NVLink技術同步迭代，形成了一個封閉但極致高效、不斷自我加固的硬體生態。
FOMO研究院電子報 is a reader-supported publication. To receive new posts and support my work, consider becoming a free or paid subscriber.

第三章：向外擴展 (Scale-out) — 編織帝國的神經網絡

What is the difference between Scale Up and Scale Out? - Router Switch Blog

用NVLink熔鑄出算力驚人的「單一巨腦」（Scale-up），只是NVIDIA解決方案的第一步。

一座城堡的力量終究有限，當戰爭規模擴大到需要動用上萬顆GPU的帝國級會戰時，一個更宏大的挑戰便浮現出來：如何讓數千座算力城堡高效協同作戰，也就是「橫向擴展 (Scale-out)」。

想像一下，數千座這樣的算力城堡散佈在一個巨大的資料中心裡。如果它們之間只能用傳統的「驛站馬車」（傳統乙太網）來傳遞情报，那麼即使每座城堡裡的軍隊（GPU）再精銳，也無法協同作戰。NVIDIA 比任何人都更早地預見到了這個新的戰場。

當所有人的目光都還聚焦在 GPU 晶片的算力競賽時，黃仁勳悄然落下了一枚看似無關，實則決定全局的棋子。

2019 年，NVIDIA 做出了決策：斥資 69 億美元，收購了在高效能運算 (HPC) 網路領域佔據絕對統治地位的以色列公司——Mellanox。

What Is InfiniBand in High-Speed Storage? | Simplyblock

Mellanox 手中握著的，正是編織帝國神經網絡的終極武器：InfiniBand。

InfiniBand 並非普通的網路技術，它從誕生之初就是為超級電腦之間的「心靈溝通」而設計的。與我們日常使用的乙太網相比，它擁有兩大近乎「魔法」的優勢：

超低延遲的無損傳輸： 傳統網路在擁堵時會「丟包」，就像信使在路上把信弄丟了，需要總部重新再寄一次，浪費了寶貴的時間。而 InfiniBand 採用了精密的流量控制，從根本上杜絕了數據包的丟失。它是一條絕對可靠、暢通無阻的專用通道，確保了微秒級的超低延遲。
RDMA (遠端直接記憶體存取) 的靈魂： 這是 InfiniBand 的真正靈魂所在。傳統乙太網的通訊，就像兩位大腦（GPU）需要透過各自的秘書（CPU）來傳話，不僅要轉述，還要記錄和處理，過程繁瑣且緩慢。而 InfiniBand 的 RDMA 技術，則賦予了這些大腦一種近乎「心電感應」的能力。它允許一台伺服器裡的 GPU，直接讀寫另一台遠在天邊的伺服器裡的 GPU 記憶體，完全繞過了雙方 CPU 的干擾。對於 AI 訓練中海量的權重同步任務來說，這種效率的提升是革命性的。

InfiniBand 並非 NVIDIA 從零創造的私有協議，而是一個由行業協會（InfiniBand Trade Association）維護的開放標準，早已在超級電腦領域稱霸多年。

然而，NVIDIA 的高明之處在於，它沒有去重新發明輪子，而是直接收購了這個標準下最主要的、近乎壟斷的硬體供應商——Mellanox。

這一舉動，巧妙地將一個名義上的「公共資源」，變成了自己帝國版圖中事實上的「私有領地」。

收購 Mellanox，這一神來之筆，讓 NVIDIA 的戰略版圖瞬間完整。至此，NVIDIA 帝國的雙重神經系統終於構建完成：

內部神經系統 (Scale-up): 以 NVLink 為脊髓，將單一伺服器內的 GPU 大腦高速連接，形成一個強大的「個體」。
外部神經系統 (Scale-out): 以 InfiniBand 為網絡，讓數千個這樣的「個體」能夠進行心電感應般的交流，融合成一個龐大、統一、無比協調的「超級意識體」（AI 叢集）。

這一垂直整合讓NVIDIA的角色徹底蛻變，從零件商變成了唯一能交付整座「AI超級工廠」的總建築師。至此，其硬體帝國的雙重佈局完成：內部用NVLink封鎖入口，外部用InfiniBand控制出口。也正是這種密不透風的統治，最終點燃了整個行業的反抗之火。

本章小結

戰略收購：NVIDIA透過收購Mellanox，將超級電腦領域的王者級網路技術InfiniBand納入囊中，補全了其Scale-out（伺服器間互連）的版圖。
事實上的壟斷：儘管InfiniBand是一個開放標準，但NVIDIA收購了市場上近乎壟斷的供應商，巧妙地將其變成了自己生態中的一環。
雙重壁壘完成：至此，NVIDIA構建了完整的硬體護城河：內部用NVLink鎖定Scale-up，外部用InfiniBand主導Scale-out，從零件商蛻變為AI工廠的總建築師。

第四章：反抗的序曲 — 從「戰國七雄」到「書同文」

在前面兩章，我們見證了 NVIDIA 帝國如何用 NVLink 和 InfiniBand 構建了一個從內到外、高度統一的算力王朝。

面對這座銅牆鐵壁，是群雄割據的「戰國時代」。

AMD's Infinity Fabric Detailed - The Innovative, Real-World Implementation of The Company's 'Perfect Lego' Philosophy

AMD、Intel、Google 等巨頭都鑄造了屬於自己的「神兵利器」——私有的高速互連技術。AMD 的 Infinity Fabric、Google 的 ICI等等，在其各自的「城邦」內都擁有驚人的速度和效率。

這就引出了一個核心問題：既然大家都有自己的高速公路，為什麼不能各自為政，各建各的王國呢？為什麼非要聯合起來，推動 UALink 這個統一標準？

答案是，這些看似強大的獨立城邦，正遭受著四個「詛咒」，讓它們在統一的帝國面前不堪一擊。UALink 的誕生，正是為了打破這些詛咒。

為何不能各自為政？— 「巴別塔」的四大詛咒

想像一下聖經故事中的巴別塔：人們試圖建造一座通天高塔，但上帝讓他們說不同的語言，於是溝通失效，協作崩潰，宏偉的工程最終化為泡影。

這正是 UALink 誕生前，非 NVIDIA 陣營面臨的困境。

詛咒一：軟體開發的噩夢
- AI 軟體（如 PyTorch、TensorFlow）的開發者，為了讓程式在不同硬體上高效運行，必須為每一種私有互連技術寫一套完全不同的優化代碼。這就像你寫了一本曠世奇書，但要出版時，必須親自將它翻譯成英文版（給 NVIDIA）、德文版（給 AMD）、法文版（給 Intel）和拉丁文版（給 Google）。這極大地拖慢了整個 AI 生態的創新速度。
詛咒二：供應商鎖定的「黃金牢籠」
- 當一個雲端服務商（如微軟、亞馬遜）選擇了某個廠商的加速器，他們就被迫要購買該廠商的全套專有方案——包括晶片、特製的交換機和特製的線纜。這就像你買了一台蘋果手機，就只能用蘋果的充電器。缺乏競爭意味著更高的價格和更少的選擇權，客戶失去了議價能力。
詛咒三：超大規模資料中心的困境
- 對於需要部署數十萬甚至上百萬個 GPU 的 Google、Meta 這樣的巨頭來說，管理多個互不兼容的硬體體系是一場災難。想像一下，你是一家大型航空公司，但你的機隊裡有波音、空客和龐巴迪的飛機。每一種飛機都需要不同的飛行員、不同的維修工具和不同的後勤團隊。採購、庫存、維護、人員培訓的成本高到難以承受。
詛咒四：無法逾越的技術鴻溝
- AI 訓練，特別是大型模型，需要在數百個 GPU 之間建立一個像「單一大腦」一樣的統一記憶體空間。如果底層的互連「語言」不同，這個「大腦」就會被分割成無數個無法順暢交流的小腦，性能大打折扣。僅僅在外部用標準乙太網連接這些「小腦」是不夠的，因為內部的「神經元」連接方式已經完全不同。

Continue reading this post for free, courtesy of KP@FOMOSoc.

Or purchase a paid subscription.

FOMO研究院電子報

圍攻NVDA霸權，UALink與ESUN的聯盟戰爭是甚麼？ALAB為何躺槍？- 深度分析第16期：NVDA護城河 (上)

第一章：互連的飢餓遊戲——Scale-up與Scale-out的宿命對決

向上擴展 (Scale-up)：鑄造單一的超級英雄

橫向擴展 (Scale-out)：組建一支復仇者聯盟

戰爭的焦點：超級英雄的內部設計圖

本章小結

投票時刻：選出下星期你最想看到的主題

第二章：從單一引擎到多腦神經網絡：NVLink與NVSwitch的共生進化

第一層：單一「動力心臟」的內部構造

第二層：從「單一引擎」到「冠軍車隊」的鴻溝

傳統方式 vs. NVIDIA之道：公共道路 (PCIe) vs. 私人高速 (NVLink)

第三層：護城河的深度 — NVIDIA的交通建設到底領先多少？

第四層：共生進化的宏偉藍圖 — 從 Hopper 到 Rubin

結論：封閉但極致高效的「神經系統」壁壘

本章小結

第三章：向外擴展 (Scale-out) — 編織帝國的神經網絡

本章小結

第四章：反抗的序曲 — 從「戰國七雄」到「書同文」

為何不能各自為政？— 「巴別塔」的四大詛咒

Continue reading this post for free, courtesy of KP@FOMOSoc.