為何 PubMed.ai 在實證醫學場景並不好用！？

你在 PubMed.ai 打進一個臨床問題，幾秒之內，它就回給你一段摘要、一篇有小標題的研究報告，還順手附上幾個可以追問的延伸問題。介面乾淨，速度很快，看起來像是把一整輪文獻回顧的苦工，都替你做完了。對一個每天被論文淹沒的臨床工作者或研究生來說，這個體驗確實誘人。

它也確實做了不少事。這篇文章想談的，不是「AI 會不會亂編」這種老問題，而是一個更隱蔽、卻更關鍵的環節：它那些漂亮的產出，全都建立在上游的「一個決定」上。那個決定做得好不好，幾乎單獨決定了這個工具在實證醫學場景能不能被信賴。先把結論放在這裡：它最大的問題，不在 AI 偷懶，而在它讀的那份清單，從一開始就可能少了最該讀的那幾篇。

一個問句，背後其實分成兩條路

先把它的運作攤開來看。

當你按下搜尋，它在背後其實同時跑了兩條路，而不是一條。

第一條，是貼近傳統 PubMed 的「正規搜尋」。它會先把你的白話問題，整理成一串布林邏輯的查詢式（就是用 AND、OR 這些連接詞，加上 MeSH 醫學標題詞，把概念精確地串起來的那種查詢），再拿這串查詢去官方 PubMed 的資料庫撈文獻。這條路規矩、可追溯，跟一個熟手在 PubMed 上親手查的邏輯，基本上是同一套。

第二條，才是它真正主打的「AI 搜尋」。這條路不走官方 PubMed，而是走它自家的索引，配上一整套 AI 流程。

兩條路聽起來都在，似乎還很周全。但關鍵在這裡：你最後在畫面上看到的那些 AI 產物（那段摘要、那篇研究報告、那個能跟你對話的視窗），並不是兩條路綜合出來的結果。它們只取用了其中一條。而被取用的，偏偏是後面那條 AI 路，不是前面那條規矩、嚴謹的布林路。換句話說，那條最像專業文獻檢索的路，反而沒有參與你真正會讀到的內容。

餵給 AI 的那條路，把布林邏輯丟掉了

那條真正餵養 AI 的路，到底怎麼挑文獻？這是整件事的核心，值得慢慢拆。

第一步，它會把你的問句大幅濃縮。前面那條正規路，會細心保留完整的布林邏輯；但這條 AI 路反其道而行，把布林邏輯整個拿掉，只留下幾個赤裸的關鍵字。打個比方，「心肺復甦時使用類固醇，能不能提高自發性循環恢復的機會」這樣一個有條件、有對象、有結果的完整臨床問題，會被它壓縮成「心肺復甦類固醇」這短短幾個詞。布林邏輯像一張精密的濾網，能精準地框出「要這個、又要那個、但排除某個」；把它換成幾個關鍵字，等於把精密篩選降級成一種模糊的「感覺上有關就抓」。

第二步，它拿這幾個關鍵字，去自家索引撈出一批論文，再按一個「相關度分數」由高到低排序，取最前面的 20 篇。

接著，真正的重點來了：你看到的文獻清單、那段摘要、那篇研究報告，甚至你後續跟它的每一句對話，全部都只看這 20 篇。一次搜尋的所有證據基礎，就濃縮成這固定的 20 篇。多一篇都沒有。

那這 20 篇，選得準嗎？有兩個地方會悄悄出事。

第一個，是那幾個關鍵字由 AI 自己從你問句裡抽，而它常常會漏掉核心概念。實際測試問它「類固醇與心肺復甦」這題，它抽出的關鍵字裡，竟然完全沒有這個主題最關鍵的另一個搭配藥物（血管加壓素）。這意味著，整條跟血管加壓素有關的重要證據，從第一步開始就不在候選名單裡，後面再怎麼排序都不可能補回來。

第二個，是那個「相關度分數」其實相當粗糙。很多篇論文會拿到一模一樣的分數，全部擠在同一層。實測一個查詢，前 40 篇竟然只有 9 種不同的分數，其中光是一層，就塞了 16 篇同分的論文。偏偏第 20 名的切點，就剛好落在這個 16 篇同分的層裡。這是什麼概念？就像一場賽跑，前面一大群人成績被四捨五入成同一個時間，而你只取「前 20 名」，於是這群同分的人裡誰算第 20、誰算第 21，基本上是擲銅板決定的。16 篇平手，只有 5、6 篇擠得進前 20，剩下的被硬生生切在第 21 名外，而誰進誰出，帶著不小的運氣成分。

它挑的是「最像的字」，不是「最強的證據」

講到這裡，就直接撞上實證醫學最核心的那個直覺了。

熟悉實證的人，腦中都有一座「證據金字塔」。最頂端是系統性回顧和統合分析，把大量研究彙整起來看全局；往下一層是隨機對照試驗（RCT），靠隨機分組壓低偏差；再往下是世代研究、病例對照、個案報告；最底層，則是動物實驗和專家意見。這座金字塔的意義在於：研究和研究之間，分量天差地別。臨床決策要的，從來不是「最多」的證據，而是位階最高、最具決定性的那幾篇。

問題是，PubMed.ai 排序所用的「相關度」，衡量的是「字面上像不像」，而不是「證據夠不夠力」。這兩件事，根本是兩回事。再打個比方，這就像在篩選求職者時，不看誰真的能把工作做好，只數誰的履歷裡出現了最多跟職缺廣告一樣的字。結果可想而知：一篇登在頂級期刊、收了上千名病人的大型 RCT，很可能只因為標題用字「比較不像」你的關鍵字，就被排在一篇普通的敘述性綜述、甚至一篇老鼠實驗的後面；更糟的情況，是它直接掉到第 21 名，從那決定一切的 20 篇裡徹底消失。

這裡可以拉 OpenEvidence 來當對照組。同樣問「類固醇與心肺復甦」這題，OpenEvidence 會直接引用這個主題最關鍵的那場大型隨機試驗，以及最新版的治療指引，而且每一個結論後面都標好了出處，讓你能一路追回原文。它之所以好用，並不是因為它的 AI 比較聰明，而是因為它挑文獻的邏輯，本來就貼近「找位階最高、最具決定性的證據」，而不是「找字面最像的 20 篇」。兩者拿到的素材品質，從起跑點就已經分出高下。

一句話總結這個差別：一邊在找最強的證據，一邊在找最像的字。對實證工作來說，這個差別很要命。

報告很流暢，但流暢不等於完整

你可能會反問：就算漏掉一兩篇關鍵文獻，生成出來的報告，難道不會露出破綻嗎？

不會。而這，正是整件事最需要小心的地方。

當那篇關鍵試驗根本不在那 20 篇裡，報告不會貼心地留白，也不會提醒你「這裡好像缺了什麼」。它會就手上剩下的那些文獻，照樣寫得條理分明、起承轉合俱全，讀起來甚至比你自己整理的還順。一個沒讀過原始文獻、對這個主題不夠熟的人，完全看不出缺口藏在哪裡。

可以這樣想：一個導遊帶你逛一座城市，行程排得井井有條、講解流暢，你玩得很盡興，卻完全不知道他跳過了全城最重要的那座地標，因為他從頭到尾沒提過它存在。一個「明顯查不到東西」的工具，你自然會提高警覺；但一個「看起來什麼都查到了」的工具，反而會讓人不知不覺放下戒心。後者的風險，其實更高。

工具自己的提醒
也因為清楚這個侷限，PubMed.ai 自己在頁面上明白標註「僅供研究用途，不適用於臨床」。另外值得提醒的是，它的名字很容易讓人誤以為是官方 PubMed 的延伸或升級版，但兩者並沒有任何官方關聯，這點使用者最好在依賴它之前先弄清楚。

掀開引擎蓋：為什麼是 gpt-4o-mini

往技術面再多看一層，會更能理解它為什麼是現在這個樣子，而這些其實都是合理的取捨。

那些即時生成的內容（把問句轉成查詢、寫摘要、產出研究報告），背後跑的是 OpenAI 的 gpt-4o-mini，一個便宜、輕量、速度很快的小型模型。只有當你主動在右側的 Deep Chat 視窗裡發問，它才會把模型升級成 DeepSeek-R1 這種比較會「思考、推理」的款式。至於把這一整套 AI 步驟串接起來的，則是一個叫 Dify 的工具，可以理解成 AI 流程的組裝線。

這套配置本身，其實相當務實。想想看，你每搜尋一次，它就要同時生出摘要、報告、延伸問題好幾塊內容；如果每一塊都動用最貴、最強的模型，成本和速度根本撐不住。用平價快速的小模型來扛這些即時、大量的生成，是個合理的工程決定。但這也順帶解釋了前面看到的現象：為什麼它從你的問句抽關鍵字會抽得那麼淺、為什麼摘要不附上逐篇引用。這些都是成本與速度權衡下的結果，不是程式哪裡壞掉了。換句話說，它的天花板，是被一開始的設計選擇給定下來的，不是故障。

做這個工具的，可能是一群什麼人

順著技術線，也順便補一下背景。

公開資料顯示，PubMed.ai 由一個七人的獨立團隊打造，成員自述都是同時有生命科學與 AI 背景的研究者，產品標榜免費、沒有企業金主。在 Product Hunt 上掛名的兩位，是 Daan Vermeer 與 Sophie Sun。從這些公開訊息看，它呈現的是一個「研究者自己做給研究者用」的獨立小團隊形象。

有意思的是，在它後端的期刊資料裡，夾帶了一些只有中文學術圈才熟悉的欄位。比方說「中科院分區」這種期刊分級制度，還有用簡體中文寫的學科分類標籤，可以合理推測，這個書目分級功能，是由熟悉中國學術慣例的人建起來的。不過公開的資料中，並沒有在這方面透露更多的訊息……也就只能點到為止，不必過度延伸。其實放在這個時代，這樣的組合一點都不奇怪：現在的 AI 工具，底層零件不是來自美國、就是來自中國，把不同來源的模型和資料兜在一起用，本來就是常態，談不上特別，更不適合拿來貼標籤或以偏概全。對使用者來說，這個工具由誰打造、登記在哪一國，其實都不是重點。真正值得在意的，從頭到尾都是同一件事：這些設計選擇，最後怎麼影響了它端到你面前的那 20 篇。

好不好用，由那個關鍵點決定

把話說回來，PubMed.ai 並不是一個壞工具。

當你想快速認識一個陌生的領域、想省下在 PubMed 上一個一個拼布林邏輯的力氣，把它當成一個入口，它其實很稱職。它真的會幫你把那 20 篇讀過、消化過，也真的能整理出一份結構清楚、讀得下去的概覽。對「我先大致摸一下這個題目」這種需求來說，它的速度和易用，確實有價值。

但決定它好不好用的，從頭到尾就只是那一個關鍵點：那 20 篇，是怎麼被選出來的。當它選擇用「字面相關度」，再加上「固定只取 20 篇、邊界還靠運氣切」的方式來篩選，而不是用實證醫學那套「依證據位階高低」的邏輯，它就注定會在最需要嚴謹的場景，漏掉最關鍵的那幾篇證據。工具的上限，就卡在這個決定上。

所以，把它當地圖，別當判決。用它來快速定位方向，沒問題；但真正要拍板的關鍵結論，還是得回到原始文獻，用你心中那座證據金字塔，親手再把關一次。畢竟在實證醫學裡，最後為病人負責的，從來不是那份讀起來很順的報告，而是讀報告的那個人。

資料來源與說明

本文中關於搜尋流程、相關度排序、固定 20 篇、所用模型（gpt-4o-mini / DeepSeek-R1）與 Dify 的技術描述，來自對 PubMed.ai 公開介面的實際操作與觀察（2026-06 進行）。
團隊與產品資訊：PubMed.ai — Product Hunt、About us、How PubMed.ai Works。
限制與學術評估：UBC Wiki — PubMed.ai、AutomateEd Review、Hum.AI Blog。
對照工具 OpenEvidence 的引用行為，來自同一組臨床問題（類固醇與心肺復甦）的實際比對。

立場聲明
本文為中性立場的科普評論，旨在說明工具的設計取捨如何影響其在實證醫學場景的適用性，非對任何個人或公司之評斷。臨床決策請以原始文獻與專業判斷為準。