Groq，LPU到底是甚麼？為甚麼Nvidia必須買下 Groq的靈魂？- 深度分析第27期：Nvidia「收購」Groq

KP@FOMOSoc

Dec 26, 2025

∙ Paid

2024 年 2 月 19 日。

對於大多數人來說，這只是一個普通的星期一。但對Groq這家公司來說，卻是非常重要的一天。

一位名叫 Matt Shumer 的用戶上傳了一段僅有 3秒的錄屏影片。沒有花哨的剪輯，沒有激昂的配樂，只有一個簡單的對話框。

他在框內輸入了一個複雜的問題。

在 ChatGPT 建立的「常識」裡，用戶習慣了等待。你會看到游標閃爍，然後文字像老式打字機一樣，一個字、一個字地蹦出來。你習慣了在 AI「思考」時去喝口水。

但在 Shumer 的影片中，事情發生得太快，以至於大腦幾乎來不及處理。

就在他按下 Enter 鍵的瞬間，數百個單詞組成的完美答案，包含引用來源和結構化建議，在不到一秒鐘的時間內瞬間刷滿螢幕。

沒有打字機效果，沒有等待，文字出現的速度快到肉眼無法捕捉。

這條推文像野火一樣蔓延。在那一刻，世界突然意識到：

我們過去兩年所經歷的AI延遲，並不是物理定律的限制，而是硬體的限制。

當大語言模型在 Groq 的晶片上跑起來時，人們第一次感覺到了那種電影裡才有的、與機器無縫對話的未來。

Groq，這家名字聽起來和Elon Musk 的 Grok 僅一字之差的公司，在一夜之間從「默默無聞的晶片新創」變成了「Nvidia的挑戰者」。

時間快轉到 2025 年 12 月 24 日，聖誕夜前夕。

沒有慶功宴，沒有上市敲鐘的歡呼。一則重磅新聞悄然登上了財經版頭條：

Nvidia宣布以 200 億美元的價格「收購」Groq 的核心資產與人才。

第一章：TPU 之父的叛逆

在矽谷，Jonathan Ross 這個名字通常與一個縮寫詞連在一起：TPU（Tensor Processing Unit，張量處理單元）。

2013 年的 Google 正面臨一場看不見的危機。

隨著語音識別、圖像分類等 AI 功能的普及，Google 的數據中心正面臨被算力需求壓垮的風險。

內部的工程師算了一筆帳：如果讓每一位安卓用戶每天只使用 3 分鐘的語音識別，Google 就需要將現有的數據中心數量翻倍。這意味著數百億美元的額外支出，這在商業上是不可持續的。

當時的解決方案通常是購買更多的 CPU，或者開始嘗試使用Nvidia的 GPU。但 Jonathan Ross，這位當時還在 Google 廣告部門工作的軟體工程師，有了一個瘋狂的想法。

利用 Google 著名的「20% 自由時間」政策——這項政策曾誕生了 Gmail 和 AdSense——Ross 開始了一個代號隱秘的硬體專案。

他的想法很簡單，卻極具顛覆性：
為什麼我們要在為圖形渲染設計的晶片（GPU）上跑 AI？為什麼不從零開始，設計一顆專門為神經網路數學運算而生的晶片？

這就是 TPU 的雛形。

Ross 不僅僅是提出想法，他親手設計並領導了這個專案。在短短 15 個月內——這在硬體開發史上簡直是神速——他和團隊完成了從設計、驗證到部署的全過程。

當第一代 TPU 插上 Google 的伺服器時，效果是震撼的。它的每瓦運算性能（TOPS/Watt）表現驚人——是當時 GPU 的 29 倍，更是傳統 CPU 的 83 倍。

它拯救了 Google 的運算危機，隨後更是成為了 AlphaGo 擊敗李世石背後的秘密武器。Ross 一戰成名，成為了 Google 內部的傳奇人物，他的發明支撐起了 Google Search、Photos 和 YouTube 幾乎核心命脈的算力。

按理說，Ross 應該在 Google 享受著頂級工程師的榮耀，不斷在組織中升職加薪。但在 2016 年，他卻做了一個讓所有人驚訝的決定：辭職。

IBM and Groq join forces to accelerate agentic AI: Making real-time intelligence an enterprise reality - SiliconANGLE

為什麼？

因為 Ross 看到了 TPU 的侷限性——不是技術上的，而是哲學上的。

TPU 是強大的，但它被鎖在 Google 的高牆之內，它是一個「封閉的武器」。只有 Google 的工程師，或者購買 Google Cloud 昂貴服務的企業才能使用它。

對於外部世界——那些大學實驗室的學生、車庫裡的創業者、不想被 Google 生態綁架的開發者——TPU 就像是一個遙不可及的神話。

Ross 的野心遠不止於此。他在 Google X（Google 的秘密實驗室）工作期間，深刻地意識到：AI 的未來不應該被少數幾家巨頭壟斷。

「如果算力是新時代的石油，那麼鑽井平台不應該只屬於 Google。」

Ross 在後來的一次採訪中暗示過這種想法。

他看到了一個巨大的市場空白：世界需要一種比 GPU 更快、比 TPU 更開放的晶片。

他想要「民主化」這種超級算力。

2016 年，Ross 帶著一部份他原來團隊的頂級晶片工程師出走，創立了 Groq。

這個名字取自科幻大師海因萊因的小說《異鄉異客》（Stranger in a Strange Land）中的詞彙 “Grok”，意為「深刻地、直覺地理解」。

這也隱喻了 Ross 的技術哲學：他要設計一種能讓機器「瞬間理解」人類語言的晶片。

第二章：離經叛道的 LPU

Groq LPU, a language processing unit for a large language model-based infrastructure | by Ceo Source | Medium

2016 年，當 Jonathan Ross 離開 Google 創立 Groq 時，他給自己的新發明取了一個看似狂妄的名字：LPU (Language Processing Unit，語言處理單元)。

在當時，這簡直是行銷上的自殺。那一年，AI 的主流戰場是圖像識別（ImageNet），而不是語言。

大語言模型（LLM）的概念還處於嬰兒期，將晶片命名為「語言處理單元」，就像在汽車剛發明時，宣稱自己造了一架「飛機」一樣，既超前又令人困惑。

但 Ross 並不在乎。他看到的未來與當時的矽谷截然不同。他認為，現有的晶片架構——包括 CPU 和 GPU——都存在一個根本性的基因缺陷。

為了理解 Groq 為什麼被視為「離經叛道」，我們必須先理解它的對手：Nvidia的 GPU。

繁忙的十字路口 vs. 精密的瑞士鐘錶

Language Processing Unit (LPU). Introduction | by Harisudhan.S | Medium

Nvidia的 GPU 本質上是一個機率性（Probabilistic）的機器。

想像一下，GPU 的內部就像是一個擁有數千條車道的超級繁忙十字路口。數據包就像是一輛輛汽車，它們在記憶體和計算核心之間穿梭。

為了管理這些巨大的車流，GPU 需要大量的「交通警察」——也就是硬體調度器（Schedulers）、緩存控制器（Cache Controllers）和分支預測器。

這些「警察」的工作是動態指揮交通：「你先停下，讓那輛車先過」、「現在記憶體堵塞了，大家等一等」。

這就導致了一個問題：不可預測性。

你永遠不知道一輛車通過十字路口確切需要多少毫秒。有時是 5 毫秒，有時因為堵車變成了 10 毫秒。這就是為什麼你在玩遊戲或使用 ChatGPT 時，偶爾會感覺到卡頓或延遲的波動。

Jonathan Ross 厭惡這種混亂。

Groq 的 LPU 採用了一種完全相反的哲學：確定性（Determinism）。

在 LPU 的世界裡，沒有交通警察，也沒有紅綠燈。所有的數據流動，在晶片開始運作之前，就已經被軟體編譯器（Compiler）精確地安排好了。

這就像是一隻機械結構精密的瑞士鐘錶，或者是工廠裡的自動化流水線。編譯器知道每一個電子在每一納秒（Nanosecond）的確切位置。數據在晶片上的流動是完全同步的，就像軍隊閱兵一樣整齊劃一。

因為不需要「交通警察」，Groq 砍掉了晶片上大量用於調度和緩存控制的電路。這帶來了兩個巨大的優勢：

極致的效率： 更多的晶片面積被用於實際的計算，而不是管理計算。
零延遲抖動： LPU 的反應時間是恆定的。這對於需要即時反應的系統（如自動駕駛或即時語音翻譯）來說，是至關重要的特性。

SRAM 的豪賭：法拉利與貨車的抉擇

除了「確定性」，Groq 還做了一個在當時看來極其冒險的硬體決策：拋棄 HBM（高頻寬記憶體），全押 SRAM（靜態隨機存取記憶體）。

這是一個關於「容量」與「速度」的終極取捨。

Nvidia的選擇 (HBM)： 這就像是一輛巨大的貨車。它能裝載海量的貨物（數據），一次可以運送 80GB 甚至更多的模型權重。但它的缺點是，貨車裝卸貨很慢，而且倉庫（記憶體）離工廠（計算核心）有一段距離，數據傳輸存在物理瓶頸。
Groq 的選擇 (SRAM)： 這就像是一輛法拉利跑車。它的後備箱非常小（單個晶片只有 230MB 容量），裝不了多少東西。但它的速度快得驚人。Groq 將 SRAM 直接鋪在計算核心旁邊，數據傳輸速度達到了驚人的 80TB/s——這是Nvidia HBM 速度的 10 倍以上。

這就是 LPU 速度神話的物理基礎。在 LPU 上，數據不需要在倉庫和工廠之間來回奔波，它就在手邊。

然而，這也是 Groq 早期最大的軟肋。

因為 SRAM 非常昂貴且佔空間，單顆 LPU 無法裝下任何現代的大型 AI 模型。要運行一個大模型，你需要將數百顆 LPU 連接在一起，讓它們像一個巨型大腦一樣協同工作。

在 2016 年到 2022 年間，這被視為一種極其不經濟的架構。
「為什麼我要買 500 顆晶片來跑一個模型，而Nvidia的一顆晶片就能裝下？」這是當時投資人和客戶最常問的問題。

孤獨的先知

在 ChatGPT 爆發之前的歲月裡，Groq 是一個孤獨的異類。

當時的 AI 市場由「訓練」主導。訓練需要的是吞吐量（Throughput），是讓貨車一次拉最多的貨。Nvidia的 GPU 是為此而生的王者。

而 Groq 專注的是「推理」的延遲（Latency），也就是法拉利送貨的速度。那時，沒有人需要法拉利。

大家都在做離線的數據分析，晚上把數據丟進去，第二天早上看結果，快一秒慢一秒根本沒人在乎。

在這段時間中，根本沒人關心推理。投資人看不懂為什麼要追求極致的低延遲，客戶也不在乎 0.2 秒和 1 秒的區別。Groq 曾數次瀕臨破產，Ross 甚至不得不自掏腰包維持公司運轉。

Jonathan Ross 和他的團隊在沒有掌聲的舞台上堅持了八年。他們被嘲笑為「偏科生」，被質疑技術路線走進了死胡同。他們製造了一把屠龍刀，卻發現世界上只有殺雞的需求。

直到 2022 年底，OpenAI 發布了 ChatGPT。

一夜之間，世界變了。AI 不再是後台的批處理任務，變成了前台的即時對話。用戶開始在乎每一個字的生成速度。延遲成為了新的痛點。

Groq 等待的風，終於來了。

這家「離經叛道」的公司，終於迎來它命運的轉折點。

第三章：速度的證明與資本的狂歡

在很長一段時間裡，Groq 面臨著一個典型的硬體初創公司困境：你的晶片再好，如果開發者拿不到手、不會用，那也是廢鐵。

傳統的銷售模式是將實體 LPU 卡賣給數據中心，但這意味著漫長的交付週期、複雜的硬體適配和高昂的試錯成本。對於那些渴望速度的 AI 開發者來說，這太慢了。

於是，在 2024 年初，Groq 做了一個大膽的決定——如果我們不賣鏟子，而是直接提供挖好的金礦呢？

這就是 GroqCloud。

Build your API with GroqCloud™ | Groq posted on the topic | LinkedIn

簡單來說，GroqCloud 是一個推理即服務（Inference-as-a-Service）平台。Groq 將數千張 LPU 卡架設在自己的數據中心裡，並封裝成簡單易用的 API 接口。

開發者不需要購買任何硬體，不需要懂底層編譯原理，只需要像調用 OpenAI 的 API 一樣，將模型請求發送給 GroqCloud，就能立刻體驗到 LPU 的極致速度。

這一轉變是革命性的。它將原本需要幾個月的硬體部署週期，壓縮到了幾秒鐘的 API 調用。

碾壓級的基準測試：碾壓 H100

隨著 GroqCloud 的開放，以及那條引爆全世界的推文之後，開發者開始對它進行瘋狂的壓力測試。結果是令人瞠目結舌的。

在知名 AI 評測機構 Artificial Analysis 的榜單上，Groq 的數據點孤零零地懸掛在圖表的左上角——那是代表「極致速度」和「極致低價」的無人區。

Groq Inference Tokenomics: Speed, But At What Cost?

速度對比： 當時最強大的 Nvidia H100 GPU 在運行 Llama 2 70B 這種主流大模型時，輸出速度大約是每秒 30-50 tokens。而 Groq 的 LPU 在同樣的 70B 模型上跑出了每秒約 270-300 tokens 的速度，是 H100 的 6 到 10 倍。而在運行 Gemma 7B 等輕量級模型時，Groq 更是飆升至每秒 800 tokens 以上。
延遲對比： 對於語音對話來說，人類能感知的延遲極限大約是 200 毫秒。GPU 的推理延遲通常在 500 毫秒以上，導致對話總有尷尬的停頓。而 Groq 將這個數字壓到了 100 毫秒以內。

這意味著什麼？這意味著 AI 終於可以像真人一樣說話了。

實際應用場景：誰在為速度買單？

這種極致的速度不僅僅是為了炫技，它解鎖了那些 GPU 無法觸及的商業場景。

獨角獸的選擇：
- Canva： 這家擁有 2.6 億月活用戶的設計巨頭，並沒有選擇傳統雲廠商，而是將其 AI 魔法設計功能的後端推理交給了 Groq，只為了讓用戶在點擊「生成」的那一瞬間無需等待。
- GPTZero： 擁有 1000 萬用戶的 AI 抄襲檢測工具，利用 Groq 將檢測速度提升了 7 倍，同時保持了 99% 的準確率。
即時語音助手： 像 Vapi 和 Retell AI 也在和Groq商討合作。過去，和 AI 打電話像是在用對講機，你說完，等一秒，它再回。現在，AI 可以隨時打斷你，插話，甚至和你吵架，流暢得令人恐懼。
即時翻譯： 在聯合國會議或跨國商務談判中，Groq 讓「同聲傳譯」變成了真正的「同步」。