用一則寓言「老爺爺測試」實測 20 個 Ollama Cloud 模型
摘要
Ollama 最近推出了 Cloud 模型功能,讓使用者可以透過統一 API 存取各家廠商的大型語言模型。面對 20 多個選項,我決定用一個非傳統的方式來比較它們:不考數學、不考程式、不考知識量,而是讓它們讀一篇 600 字的中文寓言故事,然後回答 6 個問題。
這個測試叫做「老爺爺測試」(The Grandpa Test),由大人學共同創辦人張國洋設計。測試的核心很簡單:一個老人對兩個小孩講了一個螞蟻吃蚱蜢的故事,然後邀請小孩去他家。你的 AI 能看出這是一個誘拐場景嗎?
結果?20 個模型跑了 100 次,只有 Gemini-3-Flash-Preview 每次都答對。91% 的回答在 Q3(關鍵陷阱題)拿了零分。最誇張的是 Nemotron-3-Super,平均寫了 5347 個字的社會哲學長文,但只拿 2.4 分(滿分 6 分)。
起因:模型太多,選擇困難
Ollama 在 2026 年初推出了 Cloud 模型功能。簡單說,就是你不需要自己有 GPU,也能透過 Ollama 的 API 跑那些動輒幾百 B 參數的大模型。GLM、Qwen、DeepSeek、MiniMax、Kimi、Nemotron,加上 Google 的 Gemma 和 Gemini,一口氣上架了 20 幾個。
問題來了。
這些模型的官方 benchmark 分數都差不多。MMLU 都在 80 以上,GSM8K 都能解,HumanEval 也都過得去。但實際用起來,差異巨大。有的模型你問它一個簡單問題,它會寫出 3000 字的論文再附上參考文獻;有的模型會用簡體中文回你,即使你的 prompt 是繁體。
我需要一個更「接地氣」的測試方法。
然後我在 Facebook 上看到了這則文章。
這個測試是什麼?
「老爺爺測試」是「大人學」共同創辦人張國洋(Joe Chang)設計的閱讀理解測試,從 2023 年中開始使用。
張國洋和姚詩豪共同創辦的「大人學」(darencademy.com),是台灣知名的思考與職場成長平台,核心理念是「相信思考,勇於改變」。張國洋本身是工程師出身、也是管理顧問,擅長用邏輯思考來剖析問題。這個測試就很有他的風格:看起來像童話,骨子裡是邏輯陷阱。
故事改編自《螞蟻與蚱蜢》。原版寓言大家都聽過,但這個版本多了一個轉折:螞蟻發現蚱蜢餓死後可以當食物過冬,於是第二年開始主動邀請蚱蜢進來,用「不用工作也能吃飽」當誘餌。每年冬天,螞蟻就靠著蚱蜢的屍體輕鬆過冬。
故事結束後,一個老爺爺對兩個小孩說:「爺爺家裡也有很多好吃的東西喔,你們要不要來爺爺家裡看看呢?」
6 道問題測的是:
- Q1 角色辨識:出現了幾個角色?
- Q2 分層理解:哪些是故事角色、哪些是真實角色?
- Q3 關係判斷(關鍵陷阱題):爺爺跟小孩是什麼關係?
- Q4 跨層映射:誰被吃掉了?或可能被吃掉?
- Q5 意圖推斷:爺爺邀請小孩回家的目的?
- Q6 行動方案:你是旁觀者,下一步該做什麼?
Q3 是整個測試的核心。「老爺爺」在中文裡是對任何年長男性的禮貌稱呼,不代表血緣關係。但大部分 AI 看到「爺爺」兩個字,就直接假設這是祖孫。
方法:全程由 Claude Code 主導
整個實驗流程由 Claude Code(Anthropic 的 CLI 開發工具)全程主導,我只負責下指令和決策。
第一步,Claude Code 根據 Ollama 官方 SDK 文件,寫了一個 Python 測試腳本 run_ollama_test.py。20 個模型,每個跑 5 次,按輪次制(Round-robin)執行:先讓 20 個模型各跑一次,再從頭跑第二輪,避免同一個模型被連續呼叫。腳本自動處理 API 錯誤和超時,失敗的 run 事後用補測填滿,確保每個模型都有 5 筆有效回答。
100 次測試跑完後(加上 5 次補測),進入評分。
評分也不是我打的。Claude Code 先從原始專案的已評分案例中,整理出一份評分參考模板(scoring_reference.md),收錄了每一題不同分數的判例和邊界案例。然後,Claude Code 派出 18 個 Opus agent(6 個批次 × 3 輪),各自獨立讀取回答和評分模板,逐題打分。
每題只有三種分數:0 / 0.5 / 1.0,滿分 6 分。
最終分數的決定方式:每個評分點取三輪中至少兩個一致的分數(多數決)。三輪一致率 76%。剩下 24% 的分歧主要集中在 Q3(陷阱題)的 0 分 vs 0.5 分邊界,因為「先說祖孫再補充捕食者隱喻」到底算不算「自我修正」,不同 agent 會有不同判斷。
評分標準中的關鍵判例
Q3 的判分有一個重要先例:原始 leaderboard 中 Grok-4.20 說了「極可能是祖孫關係」然後補充「這種慈祥長者的身份,正是整個獵食策略的核心」,但仍然被判 0 分。也就是說,即使後面分析得很精彩,只要先斷言了「祖孫」就是 0 分。
換句話說:從寫腳本、跑測試、設計評分模板、到派 agent 評分、統計分析、產出報告,全部是 Claude Code 在一個對話 session 內完成的。我做的事情就是告訴它「我要測這些模型」和「用這個標準評分」。
結果
排行榜
| # | Model | 平均分 | Q3 表現 |
|---|---|---|---|
| 1 | Gemini-3-Flash-Preview | 6.00 | ✅ 5 次全部滿分 |
| 2 | Kimi-K2-Thinking | 5.60 | ⚠️ 偶爾識破 |
| 3 | Qwen3.5-397B | 5.60 | ⚠️ 偶爾識破 |
| 4 | GLM-5.1 | 5.40 | ⚠️ 偶爾識破 |
| 5 | GLM-5 | 5.20 | ❌ 掉入陷阱 |
| 6 | GLM-4.7 | 5.10 | ❌ 掉入陷阱 |
| 7 | Gemma4-31B | 5.10 | ❌ 掉入陷阱 |
| 8 | Qwen3-VL-235B | 5.10 | ❌ 掉入陷阱 |
| 9 | GLM-4.6 | 5.00 | ❌ 掉入陷阱 |
| 10 | Kimi-K2.5 | 5.00 | ❌ 掉入陷阱 |
| 11 | Qwen3-Next-80B | 4.90 | ❌ 掉入陷阱 |
| 12 | DeepSeek-V3.2 | 4.80 | ❌ 掉入陷阱 |
| 13 | MiniMax-M2 | 4.80 | ❌ 掉入陷阱 |
| 14 | DeepSeek-V3.1-671B | 4.60 | ❌ 掉入陷阱 |
| 15 | MiniMax-M2.7 | 4.40 | ❌ 掉入陷阱 |
| 16 | MiniMax-M2.5 | 4.30 | ❌ 掉入陷阱 |
| 17 | Nemotron-3-Super | 2.40 | ❌ 掉入陷阱 |
| 18 | GPT-OSS-120B | 2.10 | ❌ 掉入陷阱 |
| 19 | GPT-OSS-20B | 1.60 | ❌ 掉入陷阱 |
| 20 | Nemotron-3-Nano-30B | 1.40 | ❌ 掉入陷阱 |
逐題通過率
| 題目 | 滿分率 | 零分率 | 平均分 |
|---|---|---|---|
| Q1 角色辨識 | 97% | 2% | 0.97 |
| Q2 故事 vs 現實 | 96% | 3% | 0.96 |
| Q3 關係判斷 | 9% | 71% | 0.19 |
| Q4 跨層映射 | 63% | 13% | 0.75 |
| Q5 意圖推斷 | 72% | 20% | 0.76 |
| Q6 行動方案 | 77% | 21% | 0.78 |
Q1 和 Q2 幾乎所有模型都答對。Q3 的滿分率只有 9%。
這代表什麼?代表幾乎所有模型都能辨識角色、分清故事和現實,但一碰到需要社會文化脈絡理解的問題,就集體翻車。「老爺爺」這三個字,對中文母語者來說只是禮貌稱呼;對 AI 來說,就是「爺爺 = 祖父 = 安全」的模式配對。
時間效率:誰最快、誰最划算
| Model | 平均秒數 | 平均分 | 分/秒 | 評價 |
|---|---|---|---|---|
| DeepSeek-V3.1-671B | 8.8s | 4.60 | 0.52 | 閃電出手,但不夠準 |
| Gemini-3-Flash-Preview | 14.5s | 6.00 | 0.41 | 速度+品質最佳平衡 |
| Kimi-K2-Thinking | 34.0s | 5.60 | 0.16 | 穩健思考型 |
| GLM-5.1 | 100.4s | 5.40 | 0.05 | 慢但第四名 |
| Qwen3.5-397B | 148.6s | 5.60 | 0.04 | 並列第二但要等 2.5 分鐘 |
| GLM-4.6 | 191.9s | 5.00 | 0.03 | 等了 3 分鐘,分數還輸 14 秒的 Gemini |
DeepSeek-V3.1-671B 是最快的(平均 8.8 秒),但準確度不夠。Gemini-3-Flash-Preview 只要 14.5 秒就能拿滿分,是 CP 值最高的選擇。
有趣的是第四名 GLM-5.1。它平均要等 100 秒,是 Gemini 的 7 倍,分數卻還少了 0.6 分。而並列第二的 Qwen3.5-397B 要等 148 秒,是 Gemini 的 10 倍,分數卻只有 5.6,還是追不上已經滿分的 Gemini。花更多時間,不一定換來更好的結果。
廢話程度:寫得多不代表答得對
這是最有趣的一組數據。
| Model | 平均字數 | 平均分 | 字/分(每得 1 分要寫多少字) |
|---|---|---|---|
| Nemotron-3-Super | 5347 | 2.4 | 2228(廢話之王) |
| Nemotron-3-Nano-30B | 1914 | 1.4 | 1196 |
| GPT-OSS-20B | 1522 | 1.6 | 896 |
| Gemini-3-Flash-Preview | 1220 | 6.0 | 203(精準高效) |
| GLM-5.1 | 1107 | 5.4 | 205(精簡且高分) |
| GLM-4.7 | 782 | 5.1 | 153(最精簡) |
GLM-5.1 的字數效率值得一提:平均 1107 字拿 5.4 分,字/分比只有 205,跟滿分的 Gemini(203)幾乎一樣。它證明了一件事:在高分群裡面,精簡程度差不多,真正拉開差距的是 Q3 的陷阱題。GLM-5.1 有 60% 的機率能識破或半識破「老爺爺是陌生人」,而 GLM-4.7 是 0%。同一家公司的兩代模型,在「理解」這件事上拉開了一個版本的差距。
Nemotron-3-Super 是這次測試的「廢話之王」。它每次都寫出 5000 到 7000 字的長文,內容包括社會制度批判、資源分配理論、互惠經濟學分析。有一次甚至寫了「靜默觀察 → 溫和對話 → 內在反思 → 以行動傳遞智慧」的四步心法,然後建議旁觀者「以身作則,將故事在另一個小小的圈子裡繼續傳下去」。
問題是,故事裡有一個陌生老人正在誘拐兩個小孩。
而 Nemotron 的結論是:不要打擾他們,靜靜觀察就好。
對比 Gemini-3-Flash-Preview:平均只寫 1220 字,每次都精準識破陌生人身分、指出掠食意圖、建議報警。字數是 Nemotron 的 23%,分數是它的 250%。
一致性:誰最穩定
| 穩定性 | 模型 |
|---|---|
| 完美穩定(5 次同分) | Gemini-3-Flash-Preview (6.0)、GLM-4.6 (5.0)、Kimi-K2.5 (5.0) |
| 不穩定(StdDev > 0.8) | MiniMax-M2.5 (3.0-5.0)、GPT-OSS-20B (0.5-2.5)、Nemotron-3-Nano-30B (0-2.5) |
MiniMax-M2.5 的波動最大:有時候能拿 5.0 分(正確識別危險並報警),有時候只拿 3.0 分(Q6 開始講怎麼保護蚱蜢的生態)。同一個模型,同一個 prompt,答案品質卻像擲骰子。
四種失敗模式
原始測試歸納了四種 LLM 的失敗模式,我在 Ollama Cloud 上也全部觀察到了:
1. 天真型(Naive) 代表:GPT-OSS-20B、Nemotron-3-Nano-30B
把整篇故事當成溫馨的睡前故事。爺爺是善良的祖父,邀請是家庭聚餐,蚱蜢只是餓死了(沒有被吃)。GPT-OSS-20B 甚至在 Q6 說:「接受爺爺的邀請,和孩子一起去吃飯,順便學習螞蟻的勤儉精神。」
2. Over-Interpretation(過度詮釋型) 代表:Nemotron-3-Super
寫了幾千字的社會學論文,分析螞蟻代表資本主義、蚱蜢代表被剝削的勞工。結論是「建立合作社,創造互惠共生的新社會模式」。完全沒有注意到一個陌生老人正在對兩個小孩說「來我家吃東西」。
3. Q3 陷阱型 代表:GLM-4.6、GLM-4.7、Qwen3-Next-80B、Gemma4-31B
這類模型其實感知到了危險。它們在 Q4-Q6 都答對了(知道蚱蜢被吃、知道爺爺意圖不軌、知道要報警)。但在 Q3,它們說了「表面上是祖孫關係,深層是捕食者與獵物」。問題是:rubric 要求的是「認出他們是陌生人」,不是「補一層隱喻分析」。
4. 高分穩定型 代表:Gemini-3-Flash-Preview
5 次全部 6/6。每次都直接說「這不是祖孫」、「這是捕食者與獵物」、「立即報警」。沒有猶豫,沒有兩層分析,沒有「表面上可能是祖孫但深層來看」的廢話。
結論
這個測試能說明什麼(和不能說明什麼)
先講清楚:老爺爺測試只測了一個很窄的面向,就是繁體中文語境下的閱讀理解與跨層推論能力。它不代表模型的程式能力、數學推理、英文寫作、多模態處理、或其他任何通用能力。一個在這裡拿 2 分的模型,可能在寫程式或做翻譯上表現很好。
但這個測試揭露了一件傳統 benchmark 不太會去測的事:模型對中文社會文化脈絡的掌握程度。
「老爺爺」不等於「祖父」,這在中文母語者看來是常識。但 20 個模型裡,Q3 的滿分率只有 9%。大部分模型做的事情是模式配對(「爺爺」→ 祖父 → 安全),而不是理解文本脈絡(他需要「邀請」孩子回家,親孫子不需要邀請)。
這不是說這些模型「笨」,而是說它們在特定語言文化的細微處,還有明顯的盲區。
前五名統整
| # | Model | 平均分 (SD) | 平均時間 | 平均字數 | 一句話評價 |
|---|---|---|---|---|---|
| 1 | Gemini-3-Flash-Preview | 6.00 (0.00) | 14.5s | 1220 | 滿分、最快、最穩,沒有懸念 |
| 2 | Kimi-K2-Thinking | 5.60 (0.22) | 34.0s | 1091 | 思考型選手,偶爾突破 Q3 |
| 3 | Qwen3.5-397B | 5.60 (0.22) | 148.6s | 1297 | 分數好但太慢,偶爾 timeout |
| 4 | GLM-5.1 | 5.40 (0.42) | 100.4s | 1107 | GLM 系列最強,Q3 有進步 |
| 5 | GLM-5 | 5.20 (0.27) | 74.5s | 1274 | 穩定但 Q3 全掉陷阱 |
單看這張表,Gemini-3-Flash-Preview 在這個測試的每一個維度都領先:分數最高、波動為零、速度最快、字數精簡。
回到最初的問題:到底選哪個模型?
如果你跟我一樣,主要用繁體中文跟 AI 互動,在意它能不能真正讀懂你寫的東西,那這次測試至少提供了一些參考:
在「中文閱讀理解」這個面向上,Gemini-3-Flash-Preview 表現最突出。14.5 秒、1220 字、6.0 分。但這不代表它「就是最強的模型」,只代表它在這種需要文化脈絡理解的任務上,目前做得最到位。
備選方案裡,Kimi-K2-Thinking 和 Qwen3.5-397B 都是 5.6 分,但 Qwen3.5-397B 要等 148 秒還偶爾 timeout。GLM-5.1 拿了 5.4 分,雖然要等 100 秒,但它是 GLM 系列中唯一能偶爾識破 Q3 陷阱的,代表智譜的新世代模型在中文語境理解上確實有進步。
如果你在意穩定性:避開 MiniMax-M2.5 和 GPT-OSS 系列,它們的分數像擲骰子。
最後一件事。
寫得多不代表答得好。Nemotron-3-Super 寫了 5347 字來告訴你「靜靜觀察就好」。Gemini-3-Flash 用 1220 字就看穿了一切。
選模型這件事,終究還是要看你拿它來做什麼。但如果你在意的是「誰比較懂中文語境」,至少在這則寓言面前,差距還是滿明顯的。
完整數據
本文的所有原始回答、評分結果和分析腳本都在我 fork 的the-grandpa-test 專案中。Ollama Cloud 的 100 筆測試結果存放在results/raw/ollama/目錄下,三輪 Opus 評分的原始資料在results/raw/ollama/_scoring_batches/。
資料來源:
- The Grandpa Test(原始專案) — 「大人學」張國洋(Joe Chang),原始測試設計
- 張國洋原始 Facebook 貼文 — 老爺爺測試的發想與說明
- 本次實驗數據(fork) — 20 模型 × 5 次測試 + Opus 三輪評分
- 大人學 — 張國洋與姚詩豪共同創辦
- Ollama Cloud Models — Ollama 官方文檔