為何 PubMed.ai 在實證醫學場景並不好用!?
你在 PubMed.ai 打進一個臨床問題,幾秒之內,它就回給你一段摘要、一篇有小標題的研究報告,還順手附上幾個可以追問的延伸問題。介面乾淨,速度很快,看起來像是把一整輪文獻回顧的苦工,都替你做完了。對一個每天被論文淹沒的臨床工作者或研究生來說,這個體驗確實誘人。
它也確實做了不少事。這篇文章想談的,不是「AI 會不會亂編」這種老問題,而是一個更隱蔽、卻更關鍵的環節:它那些漂亮的產出,全都建立在上游的「一個決定」上。那個決定做得好不好,幾乎單獨決定了這個工具在實證醫學場景能不能被信賴。先把結論放在這裡:它最大的問題,不在 AI 偷懶,而在它讀的那份清單,從一開始就可能少了最該讀的那幾篇。
一個問句,背後其實分成兩條路
先把它的運作攤開來看。
當你按下搜尋,它在背後其實同時跑了兩條路,而不是一條。
第一條,是貼近傳統 PubMed 的「正規搜尋」。它會先把你的白話問題,整理成一串布林邏輯的查詢式(就是用 AND、OR 這些連接詞,加上 MeSH 醫學標題詞,把概念精確地串起來的那種查詢),再拿這串查詢去官方 PubMed 的資料庫撈文獻。這條路規矩、可追溯,跟一個熟手在 PubMed 上親手查的邏輯,基本上是同一套。
第二條,才是它真正主打的「AI 搜尋」。這條路不走官方 PubMed,而是走它自家的索引,配上一整套 AI 流程。
兩條路聽起來都在,似乎還很周全。但關鍵在這裡:你最後在畫面上看到的那些 AI 產物(那段摘要、那篇研究報告、那個能跟你對話的視窗),並不是兩條路綜合出來的結果。它們只取用了其中一條。而被取用的,偏偏是後面那條 AI 路,不是前面那條規矩、嚴謹的布林路。換句話說,那條最像專業文獻檢索的路,反而沒有參與你真正會讀到的內容。
餵給 AI 的那條路,把布林邏輯丟掉了
那條真正餵養 AI 的路,到底怎麼挑文獻?這是整件事的核心,值得慢慢拆。
第一步,它會把你的問句大幅濃縮。前面那條正規路,會細心保留完整的布林邏輯;但這條 AI 路反其道而行,把布林邏輯整個拿掉,只留下幾個赤裸的關鍵字。打個比方,「心肺復甦時使用類固醇,能不能提高自發性循環恢復的機會」這樣一個有條件、有對象、有結果的完整臨床問題,會被它壓縮成「心肺復甦 類固醇」這短短幾個詞。布林邏輯像一張精密的濾網,能精準地框出「要這個、又要那個、但排除某個」;把它換成幾個關鍵字,等於把精密篩選降級成一種模糊的「感覺上有關就抓」。
第二步,它拿這幾個關鍵字,去自家索引撈出一批論文,再按一個「相關度分數」由高到低排序,取最前面的 20 篇。
接著,真正的重點來了:你看到的文獻清單、那段摘要、那篇研究報告,甚至你後續跟它的每一句對話,全部都只看這 20 篇。一次搜尋的所有證據基礎,就濃縮成這固定的 20 篇。多一篇都沒有。
那這 20 篇,選得準嗎?有兩個地方會悄悄出事。
第一個,是那幾個關鍵字由 AI 自己從你問句裡抽,而它常常會漏掉核心概念。實際測試問它「類固醇與心肺復甦」這題,它抽出的關鍵字裡,竟然完全沒有這個主題最關鍵的另一個搭配藥物(血管加壓素)。這意味著,整條跟血管加壓素有關的重要證據,從第一步開始就不在候選名單裡,後面再怎麼排序都不可能補回來。
第二個,是那個「相關度分數」其實相當粗糙。很多篇論文會拿到一模一樣的分數,全部擠在同一層。實測一個查詢,前 40 篇竟然只有 9 種不同的分數,其中光是一層,就塞了 16 篇同分的論文。偏偏第 20 名的切點,就剛好落在這個 16 篇同分的層裡。這是什麼概念?就像一場賽跑,前面一大群人成績被四捨五入成同一個時間,而你只取「前 20 名」,於是這群同分的人裡誰算第 20、誰算第 21,基本上是擲銅板決定的。16 篇平手,只有 5、6 篇擠得進前 20,剩下的被硬生生切在第 21 名外,而誰進誰出,帶著不小的運氣成分。
它挑的是「最像的字」,不是「最強的證據」
講到這裡,就直接撞上實證醫學最核心的那個直覺了。
熟悉實證的人,腦中都有一座「證據金字塔」。最頂端是系統性回顧和統合分析,把大量研究彙整起來看全局;往下一層是隨機對照試驗(RCT),靠隨機分組壓低偏差;再往下是世代研究、病例對照、個案報告;最底層,則是動物實驗和專家意見。這座金字塔的意義在於:研究和研究之間,分量天差地別。臨床決策要的,從來不是「最多」的證據,而是位階最高、最具決定性的那幾篇。
問題是,PubMed.ai 排序所用的「相關度」,衡量的是「字面上像不像」,而不是「證據夠不夠力」。這兩件事,根本是兩回事。再打個比方,這就像在篩選求職者時,不看誰真的能把工作做好,只數誰的履歷裡出現了最多跟職缺廣告一樣的字。結果可想而知:一篇登在頂級期刊、收了上千名病人的大型 RCT,很可能只因為標題用字「比較不像」你的關鍵字,就被排在一篇普通的敘述性綜述、甚至一篇老鼠實驗的後面;更糟的情況,是它直接掉到第 21 名,從那決定一切的 20 篇裡徹底消失。
這裡可以拉 OpenEvidence 來當對照組。同樣問「類固醇與心肺復甦」這題,OpenEvidence 會直接引用這個主題最關鍵的那場大型隨機試驗,以及最新版的治療指引,而且每一個結論後面都標好了出處,讓你能一路追回原文。它之所以好用,並不是因為它的 AI 比較聰明,而是因為它挑文獻的邏輯,本來就貼近「找位階最高、最具決定性的證據」,而不是「找字面最像的 20 篇」。兩者拿到的素材品質,從起跑點就已經分出高下。
一句話總結這個差別:一邊在找最強的證據,一邊在找最像的字。對實證工作來說,這個差別很要命。
報告很流暢,但流暢不等於完整
你可能會反問:就算漏掉一兩篇關鍵文獻,生成出來的報告,難道不會露出破綻嗎?
不會。而這,正是整件事最需要小心的地方。
當那篇關鍵試驗根本不在那 20 篇裡,報告不會貼心地留白,也不會提醒你「這裡好像缺了什麼」。它會就手上剩下的那些文獻,照樣寫得條理分明、起承轉合俱全,讀起來甚至比你自己整理的還順。一個沒讀過原始文獻、對這個主題不夠熟的人,完全看不出缺口藏在哪裡。
可以這樣想:一個導遊帶你逛一座城市,行程排得井井有條、講解流暢,你玩得很盡興,卻完全不知道他跳過了全城最重要的那座地標,因為他從頭到尾沒提過它存在。一個「明顯查不到東西」的工具,你自然會提高警覺;但一個「看起來什麼都查到了」的工具,反而會讓人不知不覺放下戒心。後者的風險,其實更高。
工具自己的提醒
也因為清楚這個侷限,PubMed.ai 自己在頁面上明白標註「僅供研究用途,不適用於臨床」。另外值得提醒的是,它的名字很容易讓人誤以為是官方 PubMed 的延伸或升級版,但兩者並沒有任何官方關聯,這點使用者最好在依賴它之前先弄清楚。
掀開引擎蓋:為什麼是 gpt-4o-mini
往技術面再多看一層,會更能理解它為什麼是現在這個樣子,而這些其實都是合理的取捨。
那些即時生成的內容(把問句轉成查詢、寫摘要、產出研究報告),背後跑的是 OpenAI 的 gpt-4o-mini,一個便宜、輕量、速度很快的小型模型。只有當你主動在右側的 Deep Chat 視窗裡發問,它才會把模型升級成 DeepSeek-R1 這種比較會「思考、推理」的款式。至於把這一整套 AI 步驟串接起來的,則是一個叫 Dify 的工具,可以理解成 AI 流程的組裝線。
這套配置本身,其實相當務實。想想看,你每搜尋一次,它就要同時生出摘要、報告、延伸問題好幾塊內容;如果每一塊都動用最貴、最強的模型,成本和速度根本撐不住。用平價快速的小模型來扛這些即時、大量的生成,是個合理的工程決定。但這也順帶解釋了前面看到的現象:為什麼它從你的問句抽關鍵字會抽得那麼淺、為什麼摘要不附上逐篇引用。這些都是成本與速度權衡下的結果,不是程式哪裡壞掉了。換句話說,它的天花板,是被一開始的設計選擇給定下來的,不是故障。
做這個工具的,可能是一群什麼人
順著技術線,也順便補一下背景。
公開資料顯示,PubMed.ai 由一個七人的獨立團隊打造,成員自述都是同時有生命科學與 AI 背景的研究者,產品標榜免費、沒有企業金主。在 Product Hunt 上掛名的兩位,是 Daan Vermeer 與 Sophie Sun。從這些公開訊息看,它呈現的是一個「研究者自己做給研究者用」的獨立小團隊形象。
有意思的是,在它後端的期刊資料裡,夾帶了一些只有中文學術圈才熟悉的欄位。比方說「中科院分區」這種期刊分級制度,還有用簡體中文寫的學科分類標籤,可以合理推測,這個書目分級功能,是由熟悉中國學術慣例的人建起來的。不過公開的資料中,並沒有在這方面透露更多的訊息……也就只能點到為止,不必過度延伸。其實放在這個時代,這樣的組合一點都不奇怪:現在的 AI 工具,底層零件不是來自美國、就是來自中國,把不同來源的模型和資料兜在一起用,本來就是常態,談不上特別,更不適合拿來貼標籤或以偏概全。對使用者來說,這個工具由誰打造、登記在哪一國,其實都不是重點。真正值得在意的,從頭到尾都是同一件事:這些設計選擇,最後怎麼影響了它端到你面前的那 20 篇。
好不好用,由那個關鍵點決定
把話說回來,PubMed.ai 並不是一個壞工具。
當你想快速認識一個陌生的領域、想省下在 PubMed 上一個一個拼布林邏輯的力氣,把它當成一個入口,它其實很稱職。它真的會幫你把那 20 篇讀過、消化過,也真的能整理出一份結構清楚、讀得下去的概覽。對「我先大致摸一下這個題目」這種需求來說,它的速度和易用,確實有價值。
但決定它好不好用的,從頭到尾就只是那一個關鍵點:那 20 篇,是怎麼被選出來的。當它選擇用「字面相關度」,再加上「固定只取 20 篇、邊界還靠運氣切」的方式來篩選,而不是用實證醫學那套「依證據位階高低」的邏輯,它就注定會在最需要嚴謹的場景,漏掉最關鍵的那幾篇證據。工具的上限,就卡在這個決定上。
所以,把它當地圖,別當判決。用它來快速定位方向,沒問題;但真正要拍板的關鍵結論,還是得回到原始文獻,用你心中那座證據金字塔,親手再把關一次。畢竟在實證醫學裡,最後為病人負責的,從來不是那份讀起來很順的報告,而是讀報告的那個人。
資料來源與說明
- 本文中關於搜尋流程、相關度排序、固定 20 篇、所用模型(gpt-4o-mini / DeepSeek-R1)與 Dify 的技術描述,來自對 PubMed.ai 公開介面的實際操作與觀察(2026-06 進行)。
- 團隊與產品資訊:PubMed.ai — Product Hunt、About us、How PubMed.ai Works。
- 限制與學術評估:UBC Wiki — PubMed.ai、AutomateEd Review、Hum.AI Blog。
- 對照工具 OpenEvidence 的引用行為,來自同一組臨床問題(類固醇與心肺復甦)的實際比對。
立場聲明
本文為中性立場的科普評論,旨在說明工具的設計取捨如何影響其在實證醫學場景的適用性,非對任何個人或公司之評斷。臨床決策請以原始文獻與專業判斷為準。