FOMO研究院電子報

FOMO研究院電子報

Gemini如何強勢反擊?TPU能搶佔GPU市場?博通起了甚麼作用?深度分析第22期:GOOG, AVGO, NVDA

KP@FOMOSoc's avatar
KP@FOMOSoc
Nov 26, 2025
∙ Paid

在科技界的歷史長河中,「創新者的窘境」(Innovator’s Dilemma)是所有巨頭揮之不去的夢魘。

柯達發明了數位相機卻被其埋葬,諾基亞擁有智能手機技術卻不敢推向市場。

2022 年末,當 OpenAI推出了 ChatGPT,矽谷陷入觀望與焦慮。華爾街開始質疑這家靠搜尋廣告躺著賺錢的巨人,是否將會成為AI時代的輸家。

然而,三年過去了,Google 並沒有成為下一個柯達。

但這場反擊戰的真相,並不僅僅發生在我們看得到的螢幕上(Gemini vs. GPT),更發生在我們看不見的數據中心深處。

這是一場關於算力主權、晶片架構(TPU vs. GPU)以及供應鏈博弈的深層戰爭。

從山景城的「紅色代碼」到與 Broadcom 的結盟,從被 Nvidia 扼住咽喉到建立自研晶片的護城河,從AI的輸家到現在大有一統江山之勢,Google 正在進行一場科技史上最昂貴、最激進的「換心手術」。

我將會用這篇深度報告,為大家拆解 Google 在 AI 時代的完整戰略版圖,您將了解到:

  • 危機與轉機:Google 如何克服內部的官僚主義,將 DeepMind 與 Google Brain 合併,並從「紅色代碼」的恐慌中催生出 Gemini 3.0。

  • 技術的逆襲:Gemini 3.0 究竟憑什麼完勝對手?深入解析其背後的「經典擴展」策略、MoE 架構以及深度思考(Deep Think)能力。

  • 隱形護城河:為什麼 TPU才是 Google 真正的底牌?深入解析 TPU 如何在成本和效率上,成為 Google 的「印鈔機」,以及TPU的隱憂。

  • 幕後軍火商:揭秘 Broadcom(博通) 在這場戰爭中的關鍵角色。這對「軟硬體共生」關係如何運作?

  • 雙面賽局:為何Google仍然要買入Nvidia GPU?背後有甚麼商業考量?

  • 終局之戰:ASIC(自研晶片)最終會取代Nvidia 嗎?我們將通過分析,預判 AI 晶片市場從「獨裁」走向「劃江而治」的未來格局。

  • 投資價值重估:深度剖析 Google 目前面臨的「薛丁格」投資屬性。


第一章:巨人甦醒前的惡夢——從「紅色代碼」到信任危機

在科技產業的興衰週期中,沒有什麼比「創新者的窘境」(Innovator’s Dilemma)更令人恐懼。

而在 2022 年末至 2025 年初,Google——這家曾經發明了 Transformer 架構(現代 AI 的基石)的巨人,似乎正一步步走向同樣的深淵。

ChatGPT 的 “T”

Generative Pre-trained Transformers (GPT): A Journey from Transformers to  GPT-4 and Beyond | by Mohdjasil | Medium

故事的轉折點發生在 2022 年 11 月。當 OpenAI 發布 ChatGPT 時,Google 總部山景城(Mountain View)內的氣氛瞬間凝固。

這不僅僅是一個新產品的發布,這是一場對 Google 護城河的直接突襲。

最諷刺的是:OpenAI 用來顛覆 Google 的武器,其核心設計圖完全來自 Google。

很多人可能不知道,ChatGPT 這個名字中的 “T”,指的正是 Transformer。

這要回溯到 2017 年,Google 的研究團隊發表了一篇名為《Attention Is All You Need》(你只需要注意力機制)的論文。這篇論文在當時並未引起大眾轟動,但在 AI 學術界卻引發了核爆。

Attention Is All You Need” — Understanding the Revolutionary Transformer  Architecture | by Mohd Saqib | Medium

在此之前,AI 閱讀文章就像是一個「死記硬背的小學生」(RNN/LSTM 架構):它必須一個字一個字地讀,讀到句子結尾時,往往已經忘了開頭是什麼。

這導致舊時代的 AI 很難理解長文章或複雜的語意。

Transformer 架構改變了一切。

類比:上帝視角

想像你在讀一本書。

  • 舊的 AI (RNN):像是拿著一根吸管在看書,視野只有吸管那樣大,一次只能看到一個字,讀起來既慢又容易斷章取義。

  • Transformer:像是開啟了「上帝視角」。它能同時(Parallel)看到整頁的文字,並且擁有一種叫「自注意力機制 (Self-Attention)」的超能力。它能瞬間畫出文字間的關聯線——當它看到「銀行」這個詞時,它會同時關注上下文是「河流」還是「金錢」,從而瞬間理解這是「河岸」還是「金融機構」。

Google 發明了這個「上帝視角」,並秉持著學術開放的精神,將其開源公諸於世。

他們以為這是在推動科學進步,卻沒想到,一家名為 OpenAI 的實驗室撿起了這份設計圖,並將其發揮到了極致。

被偷走的聖火

How to Use Google's LaMDA AI Chatbots

多年來,Google 內部的 LaMDA 模型在技術上並不遜色,但 Google 遲遲不敢發布。原因很簡單:聲譽風險與商業模式的衝突。

對於一家靠搜尋廣告賺取數千億美元的公司來說,一個會胡說八道的 AI 聊天機器人是巨大的風險;但對於一無所有的 OpenAI 來說,那是顛覆世界的武器。

當 ChatGPT 像病毒一樣席捲全球,Google 管理層隨即拉響了著名的「紅色代碼」(Code Red),代表了Google出現了生存危機。

Sebastian Raschka on X

如果用戶不再「搜尋」藍色連結,而是直接「詢問」AI 獲取答案,Google 的廣告帝國將在一夜之間崩塌。

創始人 Larry Page 和 Sergey Brin 被緊急召回,這在公司內部極為罕見。這兩位已經半退休的傳奇人物重回會議室,只為了一個目標:

喚醒這隻沉睡且自滿的巨人,在它被自己發明的技術殺死之前。

慌亂中的反擊與千億美元的代價

Well that's embarrassing – and costly – and a $100bn teachable moment:  Alphabet share price drops 8% after Bard AI tweet demonstrates its own  inaccuracy | Mi3

Google 的初步反擊是倉促且混亂的。2023 年初,為了回應 ChatGPT,Google 匆忙推出了 Bard。

然而,在首次公開演示中,Bard 錯誤地聲稱韋伯太空望遠鏡(JWST)拍攝了第一張太陽系外行星的照片(事實上是由歐洲南方天文台拍攝的)。

這個事實錯誤在天文學家眼裡或許只是小瑕疵,但在華爾街眼裡卻是致命的信號。

市場不需要一個完美的百科全書,但市場不能容忍 Google 在其最擅長的「資訊準確性」上輸給對手。

僅僅這一個錯誤,導致 Alphabet 股價單日暴跌接近10%,市值瞬間蒸發 1,000 億美元。

2024-2025:至暗時刻

如果說 Bard 的失誤是前奏,那麼 2024 年到 2025 年初則是 Google 的至暗時刻。投資者的焦慮並非空穴來風,數據支撐了恐慌:

📉 Google Search's Market Share Slides Below 90%, First Since 2015 - Voronoi
  • 搜尋帝國的裂痕:自 2015 年以來,Google 的搜尋市佔率一直穩居 90% 以上。但在 2024 年底,這一防線失守了。10 月份市佔率跌跛90%,隨後幾個月持續低迷。Perplexity 和 ChatGPT Search 等「答案引擎」正在改變用戶習慣——人們不想再點擊十個藍色連結,他們只想要答案。

  • 產品信任崩塌:Google 試圖用 Gemini 奪回失地,卻再次跌跤。2024 年 2 月,Gemini 的圖像生成功能爆發了嚴重的「覺醒文化」(Woke AI)醜聞——它拒絕生成白人歷史人物的圖像,甚至生成了納粹裝束的有色人種士兵。這不僅是技術調整過度的問題,更讓開發者和企業用戶質疑:Google 的 AI 是否可控?是否中立?

  • 蘋果的背刺傳聞:2025 年 5 月,市場傳出 Apple 考慮在 Safari 中取代 Google 作為默認 AI 搜尋引擎。這直接威脅到 Google 每年約 200 億美元的流量入口,導致股價再次重挫 。

當時的華爾街分析師們悲觀地認為,Google 陷入了一個「第 22 條軍規」(Catch-22):

如果不全力推廣 AI,會被 OpenAI 取代;如果全力推廣 AI,昂貴的算力成本和不再點擊廣告的用戶,將會摧毀自己最賺錢的搜尋業務。

巨人似乎被困在了自己的黃金籠子裡。


本章重點摘要 (Key Takeaways):

  • 創新者的窘境: Google 發明了 Transformer 架構,卻因擔憂破壞高利潤的廣告商業模式,將先機拱手讓給 OpenAI。

  • 信任崩塌: Bard 的演示失誤與 Gemini 的圖像生成爭議,導致 Google 市值蒸發千億美元,並動搖了市場對其技術可靠性的信心。

  • 護城河鬆動: 搜尋市佔率跌破 90% 心理關卡,面臨 ChatGPT Search 與 Perplexity 等「答案引擎」對流量入口的直接掠奪。


在進入第二章之前,會員們可以投下你們的神聖一票,決定下星期「深入研究」的主題。

Loading...

投票將在 3天後 結束。


第二章:帝國的反擊——Gemini 的誕生與 Google DeepMind 的整合

面對內憂外患,Google 做出了其歷史上最重要的一次組織架構調整。

結束內戰:Google DeepMind 的誕生

長期以來,Google 內部存在兩個頂級 AI 實驗室:Google Brain(由 Jeff Dean 領導,Transformer 的發源地)和 DeepMind(由 Demis Hassabis 領導,AlphaGo 的締造者)。這兩個部門雖然同屬 Google,但在文化和資源上長期處於競爭甚至對立狀態。

為了對抗 OpenAI,Google 必須結束這場內戰。2023 年,Google 宣布將兩者合併為 Google DeepMind。這是一個強制的聯姻,目的是集中所有的算力(TPU)和最聰明的大腦,共同打造一個能終結比賽的模型——Gemini。

從追趕到超越:Gemini 3 的逆襲

早期的 Gemini 版本(1.0 和 1.5)雖然縮小了與 GPT-4 的差距,但始終處於「追趕者」的角色。直到 2025 年 11 月,隨著 Gemini 3 Pro 的發布,戰局發生了根本性的逆轉。

這一次,Google 沒有再犯錯。

1. 硬實力的碾壓:在 GPT-5 的陰影下突圍

2025 年 8 月發布的 GPT-5.1 雖然強大,但被市場普遍認為「缺乏革命性」,它更像是一個平衡的通用工具,而非科學怪傑。

這給了 Google 絕佳的機會。

Gemini 3 Pro 發布當天即登頂 LMArena 排行榜(Elo 分數突破 1501),在「純推理」領域將 GPT-5.1 遠遠甩在身後:

Google's Gemini 3 Becomes Top AI Model On All Major LMArena Leaderboards
  • 人類終極考試(Humanity’s Last Exam):這是公認最難作弊的基準測試。Gemini 3 取得了 37.5% 的驚人分數(開啟深度思考後達 41%),而 GPT-5.1 僅為 26.5%。這 11% 的差距在 AI 領域如同鴻溝。

  • 數學推理(MathArena Apex):Gemini 3 展現了統治力,得分 23.4%,相比之下 GPT-5.1 僅能處理基礎邏輯。

破除迷信:為什麼矽谷曾認為「擴展定律」已死?

The Limits of AI Scaling Laws. Over the past decade, the field of… | by  Daniel Gutierrez | Medium

在 Gemini 3 發布前夕,矽谷瀰漫著一股悲觀情緒。許多研究者認為 Scaling Laws(擴展定律) 已經撞上了天花板。

理由似乎很充分:

  • 數據枯竭:高質量的互聯網文本快被餵光了。

  • 邊際效應遞減:過去增加 10 倍算力能讓智商翻倍,現在似乎只能提升 10%。

  • 不可持續的成本:訓練成本呈指數級上升,但模型變聰明的速度卻在變慢。

市場普遍認為,單純靠「堆料」的時代結束了,必須尋找全新的架構魔法。然而,Google DeepMind 的工程師們看著內部數據,得出了一個截然不同的結論:

牆並不存在,只是你們的梯子不夠長,或者爬梯子的姿勢不對。

2. 硬實力的碾壓:經典擴展(Classical Scaling)的復活

Gemini 3 的核心哲學是對 「經典擴展(Classical Scaling)」 的極致執行。

什麼是經典擴展?

簡單來說,就是在不改變基礎 Transformer 架構的前提下,通過增加基礎資源(數據集大小、算力、參數數量、上下文窗口),來換取性能的對數級增長。

Google 證明了只要解決了瓶頸(如數據質量和並行效率),模型能力依然能隨著資源投入而線性提升。

3.行業標準的極致化:MoE 與深度推理

在純文本和邏輯推理領域,Gemini 3 其實並沒有發明新魔法,而是將行業標準推向了物理極限。

Gemini 3 在三個關鍵維度上擊敗了 GPT-5:

第一招:混合專家架構(MoE)的巔峰

A Visual Guide to Mixture of Experts (MoE)


與 GPT-5 和 Llama 4 一樣,Gemini 3 也採用了 MoE 架構。它擁有超過 1 兆(Trillion) 個參數,但在處理每個查詢時,僅激活其中的 150-200 億 個參數。這並非 Google 獨有,但 Google 利用其TPU算力規模將其推向了極致。

什麼是混合專家模型 (MoE)?

想像一家擁有一萬名醫生的超級綜合醫院。

  • 舊時代的「稠密模型」(Dense Model):就像是一個全科醫生,不管你來看什麼病,他都要調動大腦裡所有的醫學知識(從眼科到骨科)過一遍。這既慢又累,而且很難樣樣精通。

  • MoE 架構:這家醫院有一個聰明的「導診台」(Router)。當你進來時,導診台會判斷你是「骨折」還是「感冒」,然後只把你分配給對應的那 2-3 位專家。

優勢:醫院整體規模雖大(參數量大,知識淵博),但處理每個病人時只動用極少資源(推理成本低,速度快)。Gemini 3 就是這樣一座擁有頂級專家的超級醫院。

第二招:推理能力:Deep Think 與 100 萬 Token 的護城河

  • 100 萬 Token 上下文(Context Window):

    • GPT-5:依然徘徊在 128k 到 256k Token。

    • Gemini 3:起步即 100 萬(1M)Token。這不僅是記憶力的差別,這是 「代理(Agentic)」 能力的質變。Gemini 可以一次性「讀」完整個項目的代碼庫或幾十本法律卷宗,並進行跨文檔推理。這讓它在真實工作場景(如審計、代碼重構)中擁有對手無法企及的「上帝視角」。

同時,Gemini 3 引入了類似 OpenAI o3 的「深度思考」模式。在面對複雜數學題(MathArena Apex 得分 23.4%)或代碼任務時,模型不會急著回答,而是先進入「內部沙盤推演」。

什麼是深度思考 (Deep Think)?

A Visual Guide to Reasoning LLMs - by Maarten Grootendorst

諾貝爾獎得主丹尼爾·卡尼曼將人類思維分為「系統 1(快思考)」和「系統 2(慢思考)」。

  • 快思考 (System 1):就像有人問你「2+2 等於幾?」,你脫口而出「4」。這是直覺,也是大多數早期 AI(如 GPT-3.5)的工作方式——基於概率的「文字接龍」。

  • 慢思考 (System 2):就像有人問你「234 乘以 956 等於幾?」。你無法脫口而出,你必須拿出一張草稿紙,列出算式,一步步計算,甚至回頭檢查有沒有算錯。

Gemini 的進化:Deep Think 模式就是給了 AI 這張「隱形的草稿紙」。在給你答案前,它已經在內部進行了多輪推理和自我糾錯。這讓它在數學和編程上的準確率有了質的飛躍。

第三招:原生多模態(Native Multimodal)

大多數競爭對手在處理視覺信息時,本質上仍是「拼湊」(Stitched)架構。而 Gemini 3 採用了單一統一 Transformer 堆疊。

為了理解這種差異的巨大影響,我們必須回到感知的本質。

什麼是多模態 (Multimodal)?

What is multimodal literacy? | Ellevation

人類是天生的多模態生物。當你和朋友聊天時,你同時在做三件事:聽他的聲音(音頻)、看他的表情(視覺)、理解他的話語(文本)。這三種信息在大腦中是無縫融合的。

  • 舊時代的「拼湊」AI (如早期的 GPT-4V):它本質上是一個純文字大腦。為了讓它「看圖」,工程師需要外掛一個視覺識別器,把圖片轉化成文字描述(例如:「圖片中有一直貓坐在沙發上」),再餵給大腦。這就像是「盲人聽廣播」——中間隔了一層翻譯,丟失了大量細節(如光影、微表情、氛圍)。

  • Gemini 的「原生」AI (Native Multimodal):它從出生那一刻起,就是在影片、圖片、聲音和文字的混合數據中訓練長大的。它不需要翻譯。它看到圖片就像人類一樣,是直接感知的。

戰場表現:這種架構優勢在 Video-MMMU(視頻理解) 上展現得淋漓盡致,準確率達到 87.6%。Gemini 3 能理解視頻中的因果關係、物理規律甚至情感氛圍,而對手只能做到識別物體。

Google 終於證明:Transformer 的發明者,回來了。

戰略轉向:從「實驗品」到「生產力」

Google 吸取了之前的教訓,Gemini 3 的發布策略極為激進:

Google Search with Gemini 3: Our most intelligent search yet
  • 直接植入搜尋引擎:Google 不再猶豫是否會蠶食廣告收入,直接在 Search 中部署 Gemini 3 的 AI 模式。這向市場傳遞了一個強烈信號:我們的模型成本已經低到可以大規模商用,且速度快到可以處理數十億次查詢。

    Building AI Agents with Google Gemini 3 and Open Source Frameworks - Google  Developers Blog
  • 操作型 AI(Operational AI):Google 不再將 Gemini 定位為「陪你聊天的助手」,而是定位為「幫你工作的代理(Agent)」。利用 Google Workspace 的生態優勢,Gemini 3 可以自動抓取 Gmail 的收據、對照日曆行程、並在 Sheets 中生成財務報表。這直接切中了微軟 Copilot 的腹地,讓企業用戶重新評估切換成本。

2025 年底,隨著 Gemini 3 的成功落地和 Google Cloud 利潤的飆升,華爾街的敘事徹底改變了。投資者意識到,之前的擔憂雖然合理,但低估了 Google 的底蘊。

霸權的幻覺——為什麼軟體沒有護城河?

不過,當華爾街為 Gemini 3.0 的跑分歡呼,慶祝 Google 重回王座時,資深的矽谷工程師們卻保持著一份冷靜。

因為他們深知 AI 行業的一個殘酷定律:在軟體架構的世界裡,沒有秘密。

Gemini 3.0 的勝利是真實的,但它也是極度脆弱的。

六個月的魔咒:透明的創新

Gemini 3.0 引以為傲的「稀疏混合專家模型(Sparse MoE)」、「深度思考(Deep Think)」以及「原生多模態」,雖然強大,但並非 Google 獨有的黑科技。

OpenAI 和 Anthropic 的頂級研究員只要看一下 Gemini 的技術報告,可能就可以在幾個月內反推出其背後的原理。

歷史數據無情地揭示了這場「蛙跳遊戲(Leapfrog Game)」的本質——領先優勢通常只能維持 6 到 9 個月:

   (The Ladder of LLM Iteration)   ( 202303) GPT-4 () (202406) Claude 35 Sonnet () (202508) GPT-51 () ( 202511) Gemini 30 (  MoE Deep Think) Gemini 30  ( 2026)  ( 202605) GPT-6  Claude 5 _image_1
  • 2023.03:GPT-4 震驚世界(獨霸)。

  • 2024.06:Claude 3.5 Sonnet 在編程領域反超。

  • 2025.08:GPT-5.1 發布,雖無驚喜但穩住了基本盤。

  • 2025.11:Gemini 3.0 在推理上領先。

這意味著,OpenAI ,Anthropic,Grok等的下一代模型很可能已經在訓練中,並準備在半年後再次刷新紀錄。

依靠算法取得的優勢,就像沙灘上的城堡,漲潮時就會消失。


本章重點摘要 (Key Takeaways):

  • 組織重組: Google 克服官僚主義,強勢合併 Brain 與 DeepMind,集中算力資源與頂尖人才,結束了內部的路線之爭。

  • 技術逆襲: Gemini 3.0 憑藉「經典擴展」策略與 MoE 架構,在推理與數學領域超越 GPT-5.1,並利用 100 萬 Token 上下文建立差異化優勢。

  • 原生多模態: 不同於對手的「拼湊」架構,Gemini 具備原生理解視聽資訊的能力,在影片理解等領域展現統治力。

  • 軟體的脆弱性: 儘管目前領先,但軟體算法容易被逆向工程,單純依靠模型性能的領先優勢通常僅能維持 6-9 個月。


第三章:矽谷的地下堡壘——TPU 的十年長征

既然軟體容易被複製,那麼 Google 真正的護城河在哪裡?答案在於「垂直整合的反饋迴圈」。

真正讓Gemini與眾不同的,是其獨家的TPU。

Gemini是世界上第一個完全不依賴 NVIDIA GPU,而是全流程在 Google 自研晶片 TPU(張量處理單元)上訓練和推理的前沿模型。

這為 Google 帶來了四個競爭對手無法複製的優勢:

  1. 沒有「NVIDIA 稅」:

    OpenAI 和微軟每購買一塊 H100 或 Blackwell 晶片,都要支付給 NVIDIA 高達 70% 的毛利。

    而 Google 使用自研的 TPU v6 (Trillium) 和 v7 (Ironwood),成本僅為競爭對手的一半甚至更低。

    這意味著在同樣的預算下,Google 可以部署 4 倍 於對手的算力。

  2. 集群規模與光學護城河:

    NVIDIA 的集群通常受限於通訊瓶頸,且依賴昂貴的 InfiniBand 交換機。而 Google 的 TPU Pods 採用獨特的光學環面互連技術(3D Torus)。
    Google 自研的光學電路開關(OCS)不僅讓 9,000 多顆晶片像一顆超級大腦一樣協同工作,更關鍵的是,其製造成本僅為 NVIDIA 同級交換設備的 1/10。

    這讓 Google 能夠以對手無法想像的低成本,構建出超大規模的超級電腦。

  3. 能源效率(每瓦特性能):

    在 AI 耗電量成為全球危機的 2025 年,TPU v7 (Ironwood) 的能效比是前代的 2 倍,整體能效比 2018 年的第一代 TPU 提升了 30 倍。
    配合 Google 數據中心低至 1.1 的 PUE 值(行業平均為 1.58),這讓 Google Cloud 在推理成本上擁有 50-70% 的結構性利潤優勢。

    當對手還在為電費和散熱頭痛時,Google 已經將每百萬 Token 的推理成本壓低至 0.30-0.50 美元(行業標準約為 1.00 美元)。

  4. 競爭對手的困境:OpenAI 想要優化模型時,他們必須受限於 Nvidia GPU 的硬體設計。Nvidia 的晶片是為了「通用性」而設計的,並非專門為了某個特定的 MoE 架構優化。

市場的證詞:用腳投票
這種成本優勢並非 Google 自吹自擂。著名的 AI 繪圖公司 Midjourney 在將業務遷移至 TPU 後,月度算力支出從 200 萬美元驟降至 70 萬美元,節省了 65% 的現金流。

而更具戰略意義的是,儘管 Anthropic 背後有 Amazon 的數十億投資,他們依然在 2025 年簽署協議,承諾使用 100 萬顆 TPU。

Anthropic 的財務長直言:「TPU 提供了最強的價格性能比。」這證明了在極致的經濟效益面前,連戰略盟友的關係都得讓位。

當全世界都在瘋搶 Nvidia 的 H100 顯卡,甚至馬斯克都開玩笑說「GPU 比毒品還難買」時,Google 卻顯得異常淡定。

這份淡定,源於 2013 年的一場生存危機。

2013 年的紅色警報

故事回到 2013 年。當時 Google 的工程師進行了一次令高層背脊發涼的計算:如果每位 Android 用戶每天只使用 3 分鐘的語音辨識,Google 就需要將現有的數據中心規模擴大兩倍。

這在經濟上是自殺行為。當時的 CPU(中央處理器)就像大學教授,雖然博學但算術慢;而 GPU(圖形處理器)雖然算得快,但它是為了畫圖形設計的,對於 Google 這種單一且巨大的矩陣運算需求來說,效率依然不夠極致。

Google 面臨一個選擇:要麼等著利潤受衝擊,要麼自己造芯。

但為什麼當時最強的 CPU 和 GPU 救不了 Google?要理解這點,我們必須先拆解 AI 的運算本質。

核心解密:為什麼 AI 只是數學題?

如果說 AI 是一個黑盒子,那打開盒子,你會發現裡面沒有大腦,只有無數個正在瘋狂做乘法的小學生。

什麼是「矩陣乘法」?(以「期末算分」為例)
想像你是一位大學教授,要計算全班同學的期末總成績。

  • 矩陣 A(學生表現/數據):

    • 學生甲:作業 80 分,期中考 70 分,期末考 90 分。

    • ...(這裡有幾十億個學生)

  • 矩陣 B(評分權重/模型參數):

    • 作業佔 20% (0.2),期中考佔 30% (0.3),期末考佔 50% (0.5)。

所謂的 AI 運算,就是把這兩張表疊在一起算:
學生甲總分 = (80 x 0.2) + (70 x 0.3) + (90 x 0.5) = 82 分。

在 LLM 中,學生表現是你輸入的問題,評分權重是模型腦中一兆個參數。AI 的運作,本質上就是每秒鐘進行幾千兆次這種「分數 x 權重」的加法與乘法運算。

TPU的結構性優勢是甚麼?

既然只是算加減乘除,為什麼 CPU 和 GPU 比不上 TPU?

  • CPU(博學的教授):CPU 就像一位數學教授,懂微積分、懂邏輯。但你叫教授去算一億張考卷的加權平均,他會瘋掉。因為他一次只能算一題,而且算之前還要喝口茶、推一下眼鏡(讀取記憶體),效率極低。

  • GPU(聰明的助教團):GPU 就像你請了 5,000 個大學生助教,每人發一台計算機。這比教授快多了!但他們有個致命傷:每算完一個步驟,助教就要把數字寫在黑板上(寫回記憶體),下一個步驟再抬頭看黑板。這個「抬頭、低頭」的動作(數據搬運),浪費了大量時間與電力。

  • TPU(全自動閱卷機):Google 的 TPU 是專門為了「算分」發明的 ASIC(專用晶片)。它的秘密武器叫做 「脈動陣列 (Systolic Array)」。

想像一條流水線:數據(學生成績)像水流一樣流進晶片。第一關乘上 0.2,直接把結果「推」給右邊的格子加上 0.3 的運算,再推給下一個。

差異關鍵:

  • GPU:算一步 -> 存檔 -> 讀檔 -> 算下一步。

  • TPU:算 -> 傳 -> 算 -> 傳(數據在晶片內部流動,幾乎不碰記憶體)。

數據一旦進入晶片,就會像心臟泵血一樣,在運算單元之間直接流動與傳遞,過程中幾乎不接觸記憶體。

這解決了晶片設計中最大的痛點:通訊比運算更耗能。

TPU 省去了最昂貴的「數據搬運」過程,這就是為什麼它在處理矩陣乘法(Matrix Multiplication)時,能實現比 GPU 更高的吞吐量和更低的能耗。

Please generate an infographic base on below  AI  TPU  AI  (The True Face of AI)  AIAI =  () AI  (AI Black Box)()  Q  () AI  (The Core Algorithm Matrix Multiplication) ()    =  A (Input Data) ()  80    70    90   ()  B (Model Weights) (AI ) _image_1

從「出餐」到「研發」的進化史

理解了原理,我們就能看懂 TPU 這十年的戰略轉型。這涉及兩個概念:

  • 訓練 (Training):像「讀醫學院」,需要海量算力和高精度,非常昂貴。

  • 推論 (Inference):像「醫生看診」,應用知識回答問題,要求速度快、成本低。

    All About Google's Ironwood TPU: Is It Really A Step Up? - TechDogs
  • TPU v1 (2015):完美的得來速機器人
    第一代 TPU 是一個純粹的 「推論」 晶片。它不負責學習,只負責應用。它使用簡單的計算方式(8-bit),就像快餐店店員,不求精準到小數點後十位,但求速度極快。這解決了 Google 語音辨識的燃眉之急。

  • TPU v2 - v4 (2017-2022):學會學習
    隨著 AI 競賽升級,Google 需要自己訓練模型。於是 TPU 開始進化,引入了 bfloat16 技術。簡單來說,bfloat16 就像一個「聰明的量杯」。在做菜(訓練 AI)時,你不需要知道鹽巴精確到 3.14159 克,你只需要知道是「3.1 克」就夠了。犧牲一點點微不足道的精確度,換取了極快的運算速度和更低的硬體成本。

  • TPU v5 & v6 (2023-2024):分工與反擊
    這是 Gemini 誕生的關鍵時期。Google 發現「一刀切」的晶片效率不夠,於是將 TPU v5 拆分為兩條路:

    • v5e (Efficiency):專攻「省錢」,用最低的成本運行模型,讓 Google Cloud 的價格打趴對手。

    • v5p (Performance):專攻「蠻力」,是當時訓練 Gemini 1.0 的主力軍。緊接著推出的 TPU v6 (Trillium) 則是為了對抗 NVIDIA H100 而生,性能較前代提升了 4.7 倍,確保了 Google 在算力大戰中不落下風。

  • TPU v7 Ironwood (2025):為 MoE 而生的怪獸
    到了 Gemini 3.0 時代,為了支撐龐大的 MoE 架構,Google 推出了 Ironwood。這款晶片不再是單打獨鬥,而是透過光學互連技術,將成千上萬顆晶片織成一張巨大的網。它專門為了讓多個「專家模型」同時協作而設計。

隱藏的真相:TPU 不只是為了聊天機器人

外界常有一個誤解,認為 Google 造 TPU 只是為了訓練 Gemini 這種語言模型。大錯特錯。

在 ChatGPT 出現之前的許多年裡,TPU 其實一直在默默支撐著 Google 最賺錢的業務——推薦系統(Recommendation Systems)。

System Design Interview: Recommendation System Design | Tech Wrench

舉例:你的「下一部影片」是誰決定的?
當你在 YouTube 上滑動手指,或者在 Google Search 裡看到精準的廣告時,背後運作的並不是 LLM,而是龐大的推薦算法。這些算法需要處理數十億用戶和數百億內容之間的匹配(Embedding Tables)。這就是 TPU 在第5代引入 SparseCore 架構的原因。

  • 推薦系統的挑戰:這類運算需要頻繁地在海量數據中查找特定的用戶特徵(稀疏運算),這與語言模型的邏輯不同。

  • TPU 的統治力:Google 的 TPU 基礎設施每天處理超過 20 億 YouTube 用戶的推薦請求。數據顯示,在處理這類推薦任務時,TPU v5p 的訓練速度是前代的 1.9 倍。Snap (Snapchat) 的遷移報告也證實了這一點:透過系統性的 TPU 優化,他們實現了 70% 的成本削減,總體擁有成本(TCO)比同級 GPU 基礎設施低了 55%。

所以,TPU 不僅是 Google 未來的「氧氣面罩」(AI),更是它現在的「印鈔機」(廣告與推薦)。

競爭對手的困境:架構決定命運

為什麼 OpenAI 和微軟難以複製 Gemini 的「經典擴展」策略?因為 Nvidia 的 GPU 是為了「通用性」設計的,而 Google 的 TPU 是為了「擴展性」設計的。

Gemini 3 之所以能實現 100 萬 Token 的超長上下文和高效的稀疏計算(MoE),是因為 TPU v7 (Ironwood) 採用了獨特的光學環面互連技術(3D Torus)。

  • Nvidia 集群:受限於通訊瓶頸,當卡數超過一定數量時,數據傳輸會堵塞,導致訓練效率邊際遞減。

  • TPU Pods:可以讓 9,000 多顆晶片像一顆超級大腦一樣協同工作,極大降低了通訊延遲。

這就是為什麼 Google 敢於堅持「擴展定律」——因為他們擁有唯一能支撐這種規模擴展的基礎設施。

Please generate an infographic base on below  Gemini 3 TPU v7  3D  GoogleTPU    (Gemini 3)()  Google TPU Pods   ()1 Gemini 3   Gemini 3  100  Token   (MoE) 2 ( Nvidia)   GPU (GPUs) GPU () () (Communication Bottleneck)Google TPU v7 (Ironwood)_image_1

ASIC 的阿基里斯之踵:一場豪賭

既然 TPU 這麼好——便宜、高效、省電——那為什麼全世界不都來造 TPU,反而還要排隊搶購 Nvidia 的 GPU 呢?

因為這是一場豪賭。而賭注是:時間與靈活性。

TPU 的死穴:矽晶片的「三年魔咒」
設計一款高階晶片不是寫程式,寫錯了改一行代碼就好。從定義架構、設計驗證、流片製造到最終部署,通常需要 2-3 年。這意味著 Google 今天的 TPU v7,其實是基於 2-3 年前對 AI 的預測所設計的。

Google 的噩夢場景
TPU 的強大建立在一個假設上:「AI 的未來,依然是矩陣乘法。」目前的 LLM(如 Gemini)有 95% 以上的運算都是矩陣乘法,所以 TPU 如魚得水。但是,AI 演算法變動極快:

  • 2012 年流行 CNN。

  • 2017 年變成了 Transformer。

  • 最近又出現了 MoE 和 Mamba 架構。

如果明天一位天才研究員發明了一種全新的 AI 架構,不再依賴矩陣乘法,而是充滿了複雜的邏輯判斷(If-Then-Else),TPU 的流水線就會卡住(就像閱卷機讀到作文紙)。這時候,保留了較多通用計算能力的 NVIDIA GPU 就會重新佔據優勢,因為那些「助教」雖然動作多,但他們腦筋比較靈活,懂得隨機應變。

對於微軟、Meta 來說,買 NVIDIA GPU 是買「保險」。即便明年 AI 算法大改,只需更新幾行軟體代碼,這批顯卡依然能用。這就是為什麼在演算法劇烈演變的今天,通用性仍然價值連城。

結論:兩條不同的賽道

至此,AI 晶片市場分裂成了兩個平行宇宙:

  • Nvidia 走的是「通用」路線:通用、強大、軟體生態無敵,適合所有想嘗試 AI 的公司,也是應對未知的最佳保險。

  • Google 走的是「專用」路線:專用、高效、成本極低。這條鐵路只通往一個目的地——TensorFlow/JAX 框架下的 Gemini 模型。

然而,要造出如此強大的 TPU,光靠 Google 的軟體天才是不夠的。他們需要一個懂『物理』的合作夥伴,一個在矽谷陰影中運作的軍火商。


本章重點摘要 (Key Takeaways):

  • 成本與規模優勢: 自研 TPU 讓 Google 免於支付高昂的「Nvidia 稅」,並透過光學互連技術(OCS)構建出比競爭對手更低成本、更大規模的算力集群。

  • 架構解密: TPU 採用「脈動陣列」架構,讓數據在晶片內流動而不頻繁讀寫記憶體,解決了馮·諾伊曼瓶頸,在矩陣運算上實現極致能效。

  • 雙重用途: TPU 不僅是用於訓練 AI 的氧氣面罩,更是支撐 Google 廣告與 YouTube 推薦系統(印鈔機)的核心算力支柱。

  • 潛在風險: TPU 專為矩陣運算優化,若未來 AI 算法轉向複雜邏輯或非矩陣架構,將面臨靈活性不足的挑戰。


第四章:沉默的合夥人——Broadcom 的軍火哲學

在媒體頭條上,你只會看到 「Google TPU」 的字樣,但在矽谷的深層供應鏈裡,每個人都知道一個公開的秘密:Broadcom,其實是Google TPU帝國的重要一員。

這家被稱為「半導體界私募基金」的公司,正安靜地坐在賭桌的另一端,從每一顆 TPU 的出貨中抽取驚人的過路費。

Keep reading with a 7-day free trial

Subscribe to FOMO研究院電子報 to keep reading this post and get 7 days of free access to the full post archives.

Already a paid subscriber? Sign in
© 2026 FOMO研究院 · Privacy ∙ Terms ∙ Collection notice
Start your SubstackGet the app
Substack is the home for great culture