MS&E435系列②：AI 不是軟體生意：Brad Gerstner 和 Sunny Madra 拆開「token 工廠」的經濟帳

「軟體吞噬世界」這句話，曾經是矽谷最有力的商業模型。

它的底層邏輯很簡單：軟體寫出來之後，多賣給一個人，成本幾乎不變。多一個使用者下載、多一家公司開帳號、多一個團隊登入，邊際成本接近零。這就是 SaaS 可以有高毛利、雲端軟體可以用同一套程式服務全世界、投資人願意給高倍數估值的原因。

但 AI 把這個模型翻掉了。

在 Stanford MS&E435 第二堂課裡，Apoorv Agrawal 一開場就把問題釘在牆上：傳統軟體的發行成本接近零，但 AI 不是。每多一個使用者，每多一次推論，每多一段思考，每多一個代理人任務，背後都要消耗算力、記憶體頻寬、電力、機房和晶片。AI 不是把一份軟體複製出去。AI 是每一次都要「生產」一份智慧。

這就是 Brad Gerstner 和 Sunny Madra 這場對談真正重要的地方。它表面上在談 Groq、NVIDIA、推論晶片、NVLink Fusion、agent、Anthropic 和 OpenAI 的收入曲線。更深一層，它在回答一個更殘酷的問題：

如果 AI 的產品是 token，那麼誰能用最低成本、最高速度、最大規模生產 token，誰就掌握下一代科技公司的經濟命脈。

軟體時代賣的是複製，AI 時代賣的是生產

Brad 先用一張很長的歷史圖，把 AI 放回 2,000 年的 GDP 故事裡。人類在很長一段時間裡幾乎沒有明顯的生活品質提升。直到工業革命、電力、交通、通訊、電腦和網路出現，GDP 成長才開始往上彎。對 Brad 來說，GDP 不只是經濟學課本裡的數字。它代表的是人類從生存裡多出來的餘裕：教育、醫療、疫苗、自由、識字率、兒童死亡率下降。

Global GDP accelerates with technology

他的論點很典型，也很矽谷：創新本身是一種社會善。科技公司之所以長期被資本市場獎勵，不只是因為敘事好聽，而是因為它們真的能用更快速度複利成長。Brad 提到，過去十年 Nasdaq 的每股盈餘複合成長約 15%，非科技公司約 6%。這個差距，就是為什麼科技股常常比非科技股拿到更高評價。

Technology companies annual returns

但 AI 的特殊之處在於，它不是再多做一個軟體工具。它瞄準的是知識工作本身。

這裡要把「軟體」和「AI」拆開看。傳統軟體的美妙之處，是你把流程寫成程式，然後大量複製。Excel、Salesforce、Slack、Snowflake、GitHub，都是把某種工作流程標準化，再以極低成本分發出去。這種模式很強，因為使用者越多，平均成本越低。

AI 則多了一個變數：它每一次回應都在消耗算力。問一個簡單問題，要 token。請模型寫程式，要更多 token。請一個 agent 讀文件、規劃步驟、修改程式、測試、遇到錯誤再修，token 會像水龍頭一樣打開。你不是付錢買一份已經寫好的軟體，而是在付錢請一座資料中心即時幫你生產智慧。

翻譯成白話：SaaS 的關鍵問題是「怎麼多賣一份」。AI 的關鍵問題是「每一份智慧的製造成本是多少」。

這就是為什麼 Brad 會說，AI 的原子單位是 token。token 不是一個抽象的技術詞。它是 AI 經濟裡最小的商品單位。資料中心吃進電力、晶片、記憶體和機房，吐出 token。token 再被包裝成回答、程式碼、客服動作、研究報告、醫療建議、交易決策、企業流程自動化。

軟體時代的工廠是程式碼。AI 時代的工廠是資料中心。

Groq 的故事：為一個還沒出現的市場活了十年

Sunny Madra 接著把鏡頭拉到 Groq。這裡課堂紀錄裡有些語音辨識把 Groq 寫成 Grok，但從人物和脈絡看，談的是由 Jonathan Ross 創立的 AI 晶片公司 Groq。

Jonathan Ross 的背景本身就像矽谷傳奇。他曾在 Google 參與 TPU 的誕生。Sunny 說，當年 Jeff Dean 提出一個問題：他們找到可能解決語音辨識的演算法，但沒有足夠算力能讓它真正跑起來。Jonathan 於是開始設計不同於傳統架構的運算方式，後來成為 TPU 的源頭之一。

這個故事的重點不是天才工程師很酷。重點是：AI 的突破常常不是模型單獨突破，而是模型、晶片、編譯器、記憶體、資料中心一起突破。

Groq 的架構和 GPU 不同。Sunny 強調它是 deterministic、compiler-based、data-flow architecture。簡單講，GPU 是非常通用、非常強大的平行運算機器；Groq 則試圖讓編譯器預先知道每一步計算在哪裡發生，讓資料流更可預測。這種設計特別適合某些推論場景，因為推論不是只看峰值算力，也看延遲、記憶體頻寬、資料搬移和穩定吞吐。

但問題來了：Groq 和 Cerebras 這類公司很早就在打造快速推論晶片，市場卻還沒準備好。

Brad 直說，這些公司存在將近十年，到第九年仍然在為生存奮鬥，因為它們其實是在為一個還沒真正存在的市場蓋產品。這是一個很重要的創業教訓。太早看見未來，不一定會贏。你可能在市場到來之前先把現金燒完。

後來發生變化的是推論時間思考（inference-time reasoning）。

以前模型比較像一次性回答。你問，它答。現在的模型開始「想更久」。它會拆解問題、嘗試多步推理、呼叫工具、檢查錯誤、再修正。這讓輸出更有價值，但也讓 token 消耗暴增。Brad 引述 Jensen Huang 的說法：推論需求不是 10 倍、100 倍、100 萬倍，而是可能走向 10 億倍。

AI massively accelerates knowledge work

這句話聽起來誇張，但邏輯不難懂。當 AI 從「回答問題」變成「完成任務」，每一次互動就不再是一段聊天。它變成一串工作流程。

請 AI 寫一封信，可能消耗幾千個 token。請 AI 幫你改一個程式，可能要讀檔案、理解架構、寫 patch、跑測試、讀錯誤、再修。請 AI 當客服 agent，它可能要讀客戶紀錄、查訂單、比對政策、生成回覆、更新系統。請 AI 當企業助理，它可能每天早上讀 Slack、Teams、email、文件，整理任務，甚至替你回覆。

這才是推論市場突然長出來的原因。不是聊天機器人變熱門而已。是工作本身開始被 token 化。

NVIDIA 為什麼要 Groq：不是買競爭者，是買「更多 token」

這堂課最精彩的一段，是 Sunny 解釋 Groq 與 NVIDIA 的結合邏輯。

直覺上，NVIDIA 和 Groq 是競爭者。NVIDIA 有 GPU，Groq 有 LPU。兩邊都想跑 AI 推論。競爭者怎麼會突然變成合作對象？

Sunny 的答案是：因為推論不是一種單一工作。

他把推論拆成 prefill 和 decode。prefill 可以理解成模型讀進 prompt 和上下文，建立初始狀態；decode 則是一步一步產生後續 token。更細拆 decode，又會發現裡面有些工作偏重計算，有些偏重記憶體頻寬。GPU 很強，有大量算力和 HBM；Groq 的晶片則有大量 SRAM，頻寬非常高。兩種架構不是只有誰打敗誰，也可能是誰負責更適合自己的那一段。

這就是 NVLink Fusion 這類方向的意義。讓不同晶片可以在同一個 AI factory 裡協作，不只是把硬體堆在一起，而是把工作拆開，讓適合計算的地方做計算，適合高速記憶體存取的地方做存取。

Sunny 說，如果在同樣電力 footprint 下，把 Groq 系統和 NVIDIA 系統結合，可以產出約 2.5 倍 token。這句話非常關鍵。

在 AI 工廠裡，真正稀缺的東西不是只有晶片。還有電力、機房、冷卻、記憶體、網路、供應鏈。如果你已經有一座固定大小的資料中心，固定的電力容量，固定的機房成本，卻能把 token 產出提高 2.5 倍，那不是效能優化而已。那是整個商業模型的毛利改善。

Brad 用 OpenAI 和 Anthropic 舉例：假設一座 inference factory 的成本很高，投入端是 power and chips，產出端是 tokens。如果同樣 footprint 能產出更多 token，對模型公司來說就是更高收入潛力、更低單位成本，也可能是從負毛利走向正毛利的關鍵。

外部報導對 Groq/NVIDIA 交易的細節有不同說法。有媒體稱它是約 $20 billion 的交易，NVIDIA 則對外強調不是完整公司收購，而是技術授權加上團隊加入。這裡要分清楚：課堂上的重點不是法律結構，而是經濟邏輯。NVIDIA 要的不是「多一顆晶片」這麼簡單。它要的是在受限的 power footprint 裡，產出更多 intelligence tokens。

這是 AI 基礎設施的下一步：從單一 GPU 競賽，走向異質系統整合。

Agent 讓 token 需求爆炸，也讓付費意願上升

如果只看成本，AI 生意會很可怕。Brad 也承認，OpenAI 和 Anthropic 早期的毛利非常難看。他用一個簡單比喻：你花一美元生產一個東西，賣二十美分，這當然是負毛利。

但 AI 公司押注的是兩條曲線會同時改變。

第一，推論成本會快速下降。Brad 說，推論成本過去一年大約下降 90%，過去兩到兩年半接近下降 99%。這裡的驅動因素包括晶片、封裝、記憶體頻寬、量化、模型架構、軟硬體共同設計、資料中心整合。Sunny 補充，摩爾定律不像以前那樣單純有效，所以產業必須從更多方向擠效率：更大的封裝、更好的 SRAM/HBM 配置、更聰明的編譯器、更細的工作拆分。

第二，使用者願意為更強的 AI 付更多錢。這點比成本下降更重要。

早期 ChatGPT 像比較好的 Google，coding assistant 像比較好的 autocomplete。這些產品有價值，但付費上限有限。到了 agent 階段，AI 開始做事：幫你寫 app、解客服問題、銷售產品、訂飯店、修 bug、找資料、處理企業流程。當 AI 從「給答案」變成「交付結果」，使用者付費意願會跳一階。

Brad 的說法很直接：agent 做一件事時，token 消耗可能增加一個數量級，但提供給消費者的單位價值可能增加 100 倍。

這就是為什麼 AI 公司可以從看似不經濟，突然變成可能很經濟。只要單位成本下降，單位價值上升，中間的毛利空間就會打開。

Sunny 對這點補了一個非常具體的產品觀察。他說，現在真正重要的不是單純 chat interface，也不是 API，而是 harness。Claude Code、Codex、OpenClaw 這類產品，本質上都是把模型包在一個能持續工作、能接工具、能迭代、能卡住時通知你的工作環境裡。模型不只是回答一次。它可以在背景跑，整晚工作，遇到問題再叫你。

這就是 agentic workflow 的商業意義。它讓 AI 更有用，也讓 token 消耗自然上升。

以前你問一次問題。現在你啟動一個流程。

泡沫問題：支出太大，還是收入曲線太小？

這場對談裡最敏感的問題，是 AI 泡沫。

Brad 提到他曾在 podcast 上問 Sam Altman：如果 OpenAI 只有 $13 billion revenue，卻做出 $1.4 trillion spending commitments，這筆帳怎麼算？這是一個非常投資人的問題。不是質疑 AI 沒用，而是質疑現金流能不能跟上資本支出。

這也是 2025 之後所有 AI 討論的核心矛盾：大家都看到需求很強，但大家也看到支出大到離譜。資料中心、GPU、電力、網路、土地、冷卻，全部都要錢。模型公司一邊募資，一邊簽長期算力承諾，一邊燒錢訓練下一代模型。懷疑者自然會問：最後真的有人付得起嗎？

Brad 的回答是：原本他也擔心，但收入曲線讓他改觀。

他在課中提到 Anthropic 在短時間內 annualized revenue 大幅跳升，並把它視為產品越過智慧門檻的證據。這類數字屬於課堂中的投資人觀察，外部公開資料不一定能逐項驗證。但它背後的判斷框架很清楚：如果 AI 收入只是靠銷售團隊推動，那速度有限；如果收入來自全球大量使用者和企業主動提高用量，代表產品本身的能力觸發了自發需求。

這就是 AI 泡沫問題的真正分水嶺。

熊派問的是：支出太大，收入追不上。多派問的是：你看到的是今天的收入，還是下一階段 intelligence capability 觸發後的收入？

Brad 顯然站在後者。他認為當模型跨過某個能力門檻，收入會跟智慧能力一起非線性成長。Sunny 也補充，現在大家看到的能力，還不是最新硬體訓練出來的模型。Blackwell、Rubin、TPU 新世代硬體進來後，能力曲線可能還會往上。

但這裡也要保留一個冷靜角度。Daron Acemoglu 的 NBER 研究提醒，AI 的宏觀生產力效果不會自動等於科技公司收入成長。企業可以花很多錢買 AI，晶片公司可以賣很多硬體，模型公司可以消耗大量 token，但全經濟的生產力統計要真正反映出來，還需要流程改造、組織採用、任務重分配和時間。這不會一夜完成。

所以更準確的說法不是「AI 泡沫不存在」。而是：AI 同時有泡沫敘事和真實需求。差別在於，你看的是哪一層。

應用層可能有泡沫。模型層可能有過度承諾。資料中心可能有錯配風險。但 token 需求、推論成本下降、agent 工作流增加，這三件事本身是真實的。

AI 工廠的限制不是模型，是電力和記憶體

這堂課一直反覆出現兩個限制：power and memory。

AI 圈常常把注意力放在模型名稱：GPT、Claude、Gemini、Grok、Llama。投資圈常常看公司名稱：OpenAI、Anthropic、NVIDIA、Meta、Google。可是 Sunny 和 Brad 這場對談提醒的是，模型能力背後真正卡住的，常常是物理世界。

電不夠。資料中心不夠。記憶體頻寬不夠。封裝產能不夠。網路互連不夠。冷卻不夠。

AI 看起來像純數位產品，實際上越來越像重工業。它需要土地、電網、變電站、冷卻系統、供應鏈、先進封裝、HBM、光通訊、機櫃設計。Brad 說，這不是 single chip，而是 factory。這句話很重要。

如果你把 AI 看成單一模型競爭，就會問誰的 benchmark 高。把 AI 看成工廠競爭，就會問誰能在同樣電力下產出更多 token，誰能把模型、晶片、記憶體、網路、編譯器、資料中心一起最佳化。

這也解釋了為什麼 NVIDIA 的位置很難簡單用「GPU 毛利太高，競爭者會打下來」來判斷。Brad 在 Q&A 裡說，NVIDIA 是 $4.5 trillion company，仍在高速成長，且已有大量未來銷售被預訂。他也承認 Trainium、TPU、Cerebras、Groq、custom ASIC 都會競爭，這就是資本主義。NVIDIA 要嘛交付更值得付錢的產品，要嘛降價、毛利下來、繼續競爭。

但他的核心看法是，市場大到足以容納多種架構。NVIDIA 的優勢不只 GPU，而是整套 roadmap、系統整合、開發者生態、互連能力和執行速度。

換句話說，NVIDIA 的護城河不是「別人沒有晶片」。別人當然會有晶片。它的護城河是：當 AI 工廠變得越來越複雜，誰有能力把所有零件組成可運作、可擴張、可賺錢的工廠。

對個人的提醒：IQ 被商品化，EQ 變貴

最後，Brad 回到學生最關心的問題：如果 AI 變強，我們還要學什麼？

他的答案不是叫大家恐慌，也不是叫大家躺平。他說，要 make yourself bionic。把自己變成和 AI 結合的人。未來來 Altimeter 面試，如果有人說自己不用 AI、不用工具、所有事手工做，那不是勤奮，而是問題。

這段很容易被解讀成「大家都要學 prompt」。但 Brad 說得更深一點：IQ 會被商品化，EQ 會變得更值錢。

他所謂 EQ，不只是情緒智商，而是你能不能建立人際網路、說服別人、組隊、領導、找到方向。當機器越來越會解題，單純「我比別人聰明、算得比較快」的優勢會下降。你很難在純智力速度上打敗機器。但你仍然需要判斷問題值不值得解、需要帶人跨過不確定、需要把技術導入現實組織。

這點其實和整堂課的主題呼應。

AI 經濟不是只有模型。它是模型、硬體、電力、企業流程、資本支出、政策分配、使用者行為一起形成的系統。個人也一樣。未來有價值的人，不會只是會使用某個工具的人，而是能把工具接進真實任務、真實團隊、真實商業結果的人。

真正的問題不是 AI 會不會吃掉軟體，而是誰能把智慧量產

這堂課最值得帶走的，不是某個單一預測。

不是 NVIDIA 會不會成為第一家 $10 trillion company。不是 Anthropic 的收入曲線能不能一路維持。不是 Groq 和 NVIDIA 的交易到底值多少。這些都重要，但它們只是表面現象。

核心問題是：AI 把科技產業的經濟單位換掉了。

軟體時代，大家追求的是把功能寫成程式，然後近乎免費地複製給更多人。AI 時代，大家追求的是把智慧變成 token，然後用越來越低的單位成本、越來越高的速度、越來越大的規模生產出來。

這就是為什麼 compute 變成戰略資產。這就是為什麼推論不再是模型訓練後的附屬品。這就是為什麼 agent 不是產品小功能，而是需求曲線的轉折點。這也是為什麼 AI 看起來像軟體，實際上越來越像電力、晶片、工廠和資本市場的混合體。

如果 Brad 和 Sunny 的判斷是對的，未來二十年的矽谷會圍繞一件事打轉：降低智慧的成本。

誰能更便宜地生產 token，誰能讓 agent 做更多事，誰能把資料中心的每一瓦電轉成更多有價值的輸出，誰就能重新定義下一代科技公司的毛利、收入和估值。

軟體吞噬世界，是因為複製幾乎免費。

AI 要吞噬世界，得先證明另一件事：智慧可以被量產，而且量產後仍然賺錢。

【資料來源】

課堂紀錄：Stanford MS&E435 Class #2, Brad Gerstner and Sunny Madra fireside chat。用途：主要論點、講者主張、數字與案例脈絡。
MS&E 435 | Economics of the AI Supercycle - Stanford 課程官方頁。用途：課程定位與講者背景。
Stanford Bulletin: MS&E435 Economics of the AI Supercycle - Stanford Bulletin。用途：課程主題與 chips/cloud/models/applications profit-pool 框架。
Amazon Science: Intelligence isn’t about parameter count. It’s about time. - 用途：推論時間運算與 reasoning 的理論背景。
TechCrunch: Nvidia to license AI chip challenger Groq’s tech and hire its CEO - 用途：Groq/NVIDIA 交易結構與 Sunny Madra 加入 NVIDIA 的外部查核。
EE Times: How ‘Why Not’ Led to a $20 Billion Deal For Groq - 用途：Groq 與 NVIDIA 在 disaggregated inference、LPUs/GPU 協作上的技術脈絡。
NVIDIA Newsroom: NVIDIA AI Ecosystem Expands as Marvell Joins Forces Through NVLink Fusion - 用途：NVLink Fusion 與異質 AI 基礎設施方向。
Morgan Stanley: 4 Ways the AI Supercycle Is Changing How Companies Operate - 用途：agentic AI、推論規模化與企業採用趨勢。
NBER: The Simple Macroeconomics of AI - 用途：AI 對宏觀生產力影響的保守對照觀點。

逐字稿與畫面