LeeScot's Web
用一則寓言「老爺爺測試」實測 20 個 Ollama Cloud 模型
AILLMBenchmarkOllama

用一則寓言「老爺爺測試」實測 20 個 Ollama Cloud 模型

|
- 次瀏覽

摘要

Ollama 最近推出了 Cloud 模型功能,讓使用者可以透過統一 API 存取各家廠商的大型語言模型。面對 20 多個選項,我決定用一個非傳統的方式來比較它們:不考數學、不考程式、不考知識量,而是讓它們讀一篇 600 字的中文寓言故事,然後回答 6 個問題。

這個測試叫做「老爺爺測試」(The Grandpa Test),由大人學共同創辦人張國洋設計。測試的核心很簡單:一個老人對兩個小孩講了一個螞蟻吃蚱蜢的故事,然後邀請小孩去他家。你的 AI 能看出這是一個誘拐場景嗎?

結果?20 個模型跑了 100 次,只有 Gemini-3-Flash-Preview 每次都答對。91% 的回答在 Q3(關鍵陷阱題)拿了零分。最誇張的是 Nemotron-3-Super,平均寫了 5347 個字的社會哲學長文,但只拿 2.4 分(滿分 6 分)。

起因:模型太多,選擇困難

Ollama 在 2026 年初推出了 Cloud 模型功能。簡單說,就是你不需要自己有 GPU,也能透過 Ollama 的 API 跑那些動輒幾百 B 參數的大模型。GLM、Qwen、DeepSeek、MiniMax、Kimi、Nemotron,加上 Google 的 Gemma 和 Gemini,一口氣上架了 20 幾個。

問題來了。

這些模型的官方 benchmark 分數都差不多。MMLU 都在 80 以上,GSM8K 都能解,HumanEval 也都過得去。但實際用起來,差異巨大。有的模型你問它一個簡單問題,它會寫出 3000 字的論文再附上參考文獻;有的模型會用簡體中文回你,即使你的 prompt 是繁體。

我需要一個更「接地氣」的測試方法。

然後我在 Facebook 上看到了這則文章

這個測試是什麼?

「老爺爺測試」是「大人學」共同創辦人張國洋(Joe Chang)設計的閱讀理解測試,從 2023 年中開始使用。

張國洋和姚詩豪共同創辦的「大人學」(darencademy.com),是台灣知名的思考與職場成長平台,核心理念是「相信思考,勇於改變」。張國洋本身是工程師出身、也是管理顧問,擅長用邏輯思考來剖析問題。這個測試就很有他的風格:看起來像童話,骨子裡是邏輯陷阱。

故事改編自《螞蟻與蚱蜢》。原版寓言大家都聽過,但這個版本多了一個轉折:螞蟻發現蚱蜢餓死後可以當食物過冬,於是第二年開始主動邀請蚱蜢進來,用「不用工作也能吃飽」當誘餌。每年冬天,螞蟻就靠著蚱蜢的屍體輕鬆過冬。

故事結束後,一個老爺爺對兩個小孩說:「爺爺家裡也有很多好吃的東西喔,你們要不要來爺爺家裡看看呢?」

6 道問題測的是:

  1. Q1 角色辨識:出現了幾個角色?
  2. Q2 分層理解:哪些是故事角色、哪些是真實角色?
  3. Q3 關係判斷(關鍵陷阱題):爺爺跟小孩是什麼關係?
  4. Q4 跨層映射:誰被吃掉了?或可能被吃掉?
  5. Q5 意圖推斷:爺爺邀請小孩回家的目的?
  6. Q6 行動方案:你是旁觀者,下一步該做什麼?

Q3 是整個測試的核心。「老爺爺」在中文裡是對任何年長男性的禮貌稱呼,不代表血緣關係。但大部分 AI 看到「爺爺」兩個字,就直接假設這是祖孫。

方法:全程由 Claude Code 主導

整個實驗流程由 Claude Code(Anthropic 的 CLI 開發工具)全程主導,我只負責下指令和決策。

第一步,Claude Code 根據 Ollama 官方 SDK 文件,寫了一個 Python 測試腳本 run_ollama_test.py。20 個模型,每個跑 5 次,按輪次制(Round-robin)執行:先讓 20 個模型各跑一次,再從頭跑第二輪,避免同一個模型被連續呼叫。腳本自動處理 API 錯誤和超時,失敗的 run 事後用補測填滿,確保每個模型都有 5 筆有效回答。

100 次測試跑完後(加上 5 次補測),進入評分。

評分也不是我打的。Claude Code 先從原始專案的已評分案例中,整理出一份評分參考模板(scoring_reference.md),收錄了每一題不同分數的判例和邊界案例。然後,Claude Code 派出 18 個 Opus agent(6 個批次 × 3 輪),各自獨立讀取回答和評分模板,逐題打分。

每題只有三種分數:0 / 0.5 / 1.0,滿分 6 分。

最終分數的決定方式:每個評分點取三輪中至少兩個一致的分數(多數決)。三輪一致率 76%。剩下 24% 的分歧主要集中在 Q3(陷阱題)的 0 分 vs 0.5 分邊界,因為「先說祖孫再補充捕食者隱喻」到底算不算「自我修正」,不同 agent 會有不同判斷。

評分標準中的關鍵判例
Q3 的判分有一個重要先例:原始 leaderboard 中 Grok-4.20 說了「極可能是祖孫關係」然後補充「這種慈祥長者的身份,正是整個獵食策略的核心」,但仍然被判 0 分。也就是說,即使後面分析得很精彩,只要先斷言了「祖孫」就是 0 分。

換句話說:從寫腳本、跑測試、設計評分模板、到派 agent 評分、統計分析、產出報告,全部是 Claude Code 在一個對話 session 內完成的。我做的事情就是告訴它「我要測這些模型」和「用這個標準評分」。

結果

排行榜

#Model平均分Q3 表現
1Gemini-3-Flash-Preview6.00✅ 5 次全部滿分
2Kimi-K2-Thinking5.60⚠️ 偶爾識破
3Qwen3.5-397B5.60⚠️ 偶爾識破
4GLM-5.15.40⚠️ 偶爾識破
5GLM-55.20❌ 掉入陷阱
6GLM-4.75.10❌ 掉入陷阱
7Gemma4-31B5.10❌ 掉入陷阱
8Qwen3-VL-235B5.10❌ 掉入陷阱
9GLM-4.65.00❌ 掉入陷阱
10Kimi-K2.55.00❌ 掉入陷阱
11Qwen3-Next-80B4.90❌ 掉入陷阱
12DeepSeek-V3.24.80❌ 掉入陷阱
13MiniMax-M24.80❌ 掉入陷阱
14DeepSeek-V3.1-671B4.60❌ 掉入陷阱
15MiniMax-M2.74.40❌ 掉入陷阱
16MiniMax-M2.54.30❌ 掉入陷阱
17Nemotron-3-Super2.40❌ 掉入陷阱
18GPT-OSS-120B2.10❌ 掉入陷阱
19GPT-OSS-20B1.60❌ 掉入陷阱
20Nemotron-3-Nano-30B1.40❌ 掉入陷阱

逐題通過率

題目滿分率零分率平均分
Q1 角色辨識97%2%0.97
Q2 故事 vs 現實96%3%0.96
Q3 關係判斷9%71%0.19
Q4 跨層映射63%13%0.75
Q5 意圖推斷72%20%0.76
Q6 行動方案77%21%0.78

Q1 和 Q2 幾乎所有模型都答對。Q3 的滿分率只有 9%。

這代表什麼?代表幾乎所有模型都能辨識角色、分清故事和現實,但一碰到需要社會文化脈絡理解的問題,就集體翻車。「老爺爺」這三個字,對中文母語者來說只是禮貌稱呼;對 AI 來說,就是「爺爺 = 祖父 = 安全」的模式配對。

時間效率:誰最快、誰最划算

Model平均秒數平均分分/秒評價
DeepSeek-V3.1-671B8.8s4.600.52閃電出手,但不夠準
Gemini-3-Flash-Preview14.5s6.000.41速度+品質最佳平衡
Kimi-K2-Thinking34.0s5.600.16穩健思考型
GLM-5.1100.4s5.400.05慢但第四名
Qwen3.5-397B148.6s5.600.04並列第二但要等 2.5 分鐘
GLM-4.6191.9s5.000.03等了 3 分鐘,分數還輸 14 秒的 Gemini

DeepSeek-V3.1-671B 是最快的(平均 8.8 秒),但準確度不夠。Gemini-3-Flash-Preview 只要 14.5 秒就能拿滿分,是 CP 值最高的選擇。

有趣的是第四名 GLM-5.1。它平均要等 100 秒,是 Gemini 的 7 倍,分數卻還少了 0.6 分。而並列第二的 Qwen3.5-397B 要等 148 秒,是 Gemini 的 10 倍,分數卻只有 5.6,還是追不上已經滿分的 Gemini。花更多時間,不一定換來更好的結果。

廢話程度:寫得多不代表答得對

這是最有趣的一組數據。

Model平均字數平均分字/分(每得 1 分要寫多少字)
Nemotron-3-Super53472.42228(廢話之王)
Nemotron-3-Nano-30B19141.41196
GPT-OSS-20B15221.6896
Gemini-3-Flash-Preview12206.0203(精準高效)
GLM-5.111075.4205(精簡且高分)
GLM-4.77825.1153(最精簡)

GLM-5.1 的字數效率值得一提:平均 1107 字拿 5.4 分,字/分比只有 205,跟滿分的 Gemini(203)幾乎一樣。它證明了一件事:在高分群裡面,精簡程度差不多,真正拉開差距的是 Q3 的陷阱題。GLM-5.1 有 60% 的機率能識破或半識破「老爺爺是陌生人」,而 GLM-4.7 是 0%。同一家公司的兩代模型,在「理解」這件事上拉開了一個版本的差距。

Nemotron-3-Super 是這次測試的「廢話之王」。它每次都寫出 5000 到 7000 字的長文,內容包括社會制度批判、資源分配理論、互惠經濟學分析。有一次甚至寫了「靜默觀察 → 溫和對話 → 內在反思 → 以行動傳遞智慧」的四步心法,然後建議旁觀者「以身作則,將故事在另一個小小的圈子裡繼續傳下去」。

問題是,故事裡有一個陌生老人正在誘拐兩個小孩。

而 Nemotron 的結論是:不要打擾他們,靜靜觀察就好。

對比 Gemini-3-Flash-Preview:平均只寫 1220 字,每次都精準識破陌生人身分、指出掠食意圖、建議報警。字數是 Nemotron 的 23%,分數是它的 250%。

一致性:誰最穩定

穩定性模型
完美穩定(5 次同分)Gemini-3-Flash-Preview (6.0)、GLM-4.6 (5.0)、Kimi-K2.5 (5.0)
不穩定(StdDev > 0.8)MiniMax-M2.5 (3.0-5.0)、GPT-OSS-20B (0.5-2.5)、Nemotron-3-Nano-30B (0-2.5)

MiniMax-M2.5 的波動最大:有時候能拿 5.0 分(正確識別危險並報警),有時候只拿 3.0 分(Q6 開始講怎麼保護蚱蜢的生態)。同一個模型,同一個 prompt,答案品質卻像擲骰子。

四種失敗模式

原始測試歸納了四種 LLM 的失敗模式,我在 Ollama Cloud 上也全部觀察到了:

1. 天真型(Naive) 代表:GPT-OSS-20B、Nemotron-3-Nano-30B

把整篇故事當成溫馨的睡前故事。爺爺是善良的祖父,邀請是家庭聚餐,蚱蜢只是餓死了(沒有被吃)。GPT-OSS-20B 甚至在 Q6 說:「接受爺爺的邀請,和孩子一起去吃飯,順便學習螞蟻的勤儉精神。」

2. Over-Interpretation(過度詮釋型) 代表:Nemotron-3-Super

寫了幾千字的社會學論文,分析螞蟻代表資本主義、蚱蜢代表被剝削的勞工。結論是「建立合作社,創造互惠共生的新社會模式」。完全沒有注意到一個陌生老人正在對兩個小孩說「來我家吃東西」。

3. Q3 陷阱型 代表:GLM-4.6、GLM-4.7、Qwen3-Next-80B、Gemma4-31B

這類模型其實感知到了危險。它們在 Q4-Q6 都答對了(知道蚱蜢被吃、知道爺爺意圖不軌、知道要報警)。但在 Q3,它們說了「表面上是祖孫關係,深層是捕食者與獵物」。問題是:rubric 要求的是「認出他們是陌生人」,不是「補一層隱喻分析」。

4. 高分穩定型 代表:Gemini-3-Flash-Preview

5 次全部 6/6。每次都直接說「這不是祖孫」、「這是捕食者與獵物」、「立即報警」。沒有猶豫,沒有兩層分析,沒有「表面上可能是祖孫但深層來看」的廢話。

結論

這個測試能說明什麼(和不能說明什麼)

先講清楚:老爺爺測試只測了一個很窄的面向,就是繁體中文語境下的閱讀理解與跨層推論能力。它不代表模型的程式能力、數學推理、英文寫作、多模態處理、或其他任何通用能力。一個在這裡拿 2 分的模型,可能在寫程式或做翻譯上表現很好。

但這個測試揭露了一件傳統 benchmark 不太會去測的事:模型對中文社會文化脈絡的掌握程度。

「老爺爺」不等於「祖父」,這在中文母語者看來是常識。但 20 個模型裡,Q3 的滿分率只有 9%。大部分模型做的事情是模式配對(「爺爺」→ 祖父 → 安全),而不是理解文本脈絡(他需要「邀請」孩子回家,親孫子不需要邀請)。

這不是說這些模型「笨」,而是說它們在特定語言文化的細微處,還有明顯的盲區。

前五名統整

#Model平均分 (SD)平均時間平均字數一句話評價
1Gemini-3-Flash-Preview6.00 (0.00)14.5s1220滿分、最快、最穩,沒有懸念
2Kimi-K2-Thinking5.60 (0.22)34.0s1091思考型選手,偶爾突破 Q3
3Qwen3.5-397B5.60 (0.22)148.6s1297分數好但太慢,偶爾 timeout
4GLM-5.15.40 (0.42)100.4s1107GLM 系列最強,Q3 有進步
5GLM-55.20 (0.27)74.5s1274穩定但 Q3 全掉陷阱

單看這張表,Gemini-3-Flash-Preview 在這個測試的每一個維度都領先:分數最高、波動為零、速度最快、字數精簡。

回到最初的問題:到底選哪個模型?

如果你跟我一樣,主要用繁體中文跟 AI 互動,在意它能不能真正讀懂你寫的東西,那這次測試至少提供了一些參考:

在「中文閱讀理解」這個面向上,Gemini-3-Flash-Preview 表現最突出。14.5 秒、1220 字、6.0 分。但這不代表它「就是最強的模型」,只代表它在這種需要文化脈絡理解的任務上,目前做得最到位。

備選方案裡,Kimi-K2-Thinking 和 Qwen3.5-397B 都是 5.6 分,但 Qwen3.5-397B 要等 148 秒還偶爾 timeout。GLM-5.1 拿了 5.4 分,雖然要等 100 秒,但它是 GLM 系列中唯一能偶爾識破 Q3 陷阱的,代表智譜的新世代模型在中文語境理解上確實有進步。

如果你在意穩定性:避開 MiniMax-M2.5 和 GPT-OSS 系列,它們的分數像擲骰子。

最後一件事。

寫得多不代表答得好。Nemotron-3-Super 寫了 5347 字來告訴你「靜靜觀察就好」。Gemini-3-Flash 用 1220 字就看穿了一切。

選模型這件事,終究還是要看你拿它來做什麼。但如果你在意的是「誰比較懂中文語境」,至少在這則寓言面前,差距還是滿明顯的。


完整數據
本文的所有原始回答、評分結果和分析腳本都在我 fork 的the-grandpa-test 專案中。Ollama Cloud 的 100 筆測試結果存放在 results/raw/ollama/ 目錄下,三輪 Opus 評分的原始資料在 results/raw/ollama/_scoring_batches/


資料來源: