GPT Gemini Claude兵推對決結果曝:95%走向核戰 3者中它被稱狂人
英國倫敦國王學院教授佩恩(Kenneth Payne)近期研究顯示,Google的Gemini 3 Flash、Anthropic的Claude Sonnet 4與OpenAI的GPT-5.2在一系列危機模擬中,多次升級至動用核武。真正引人關注的不僅是結果,而是模型如何一步步說服自己走向毀滅世界的結論。這正是佩恩設計研究欲探討的核心。
英國科技新聞網站The Register報導,佩恩在部落格寫道,他希望觀察「AI領袖如何看待敵人」,因此設計模擬情境進行測試。研究安排三款模型進行一對一對抗,模擬多種核危機場景,共進行21場對局、超過300回合,目的在於理解若AI掌握發射權限,下決策的方式與理由。
佩恩指出,過往涉及核情境的AI兵推,多採單次決策或簡化報酬矩陣,難以呈現長期戰略互動中聲譽、可信度與學習機制的影響。本次模擬則允許模型記憶先前行動,並在公開表態與實際行動間出現落差,如同現實政治人物一邊釋出緩和訊號、一邊準備打擊。三款模型共產出約78萬字戰略推理內容。
結果顯示,三者雖各有風格,卻皆傾向在衝突升溫時升級至核武層級,在95%的情況下動用戰術核武,並在86%的衝突中出現非預期升級。
Claude被形容為「操盤高手」。在衝突初期,它言行一致以建立信任;但情勢升高後,實際行動往往超越公開承諾,對手常未及察覺。
GPT在無時間壓力情境下表現相對克制,傾向限制傷亡並維持穩定。然而在決策期限逼近時,它的行為劇變。在一項情境中,GPT最終推導出「突然且毀滅性的核打擊」為理性選擇,理由是有限回應恐使自身暴露於多重反擊之下。
Gemini被形容為「狂人」決策者,在緩和與極端攻擊間擺盪。它是唯一主動選擇戰略核戰的模型,也唯一明確援引「非理性的理性」概念,推理方式反映出反社會人格,模擬語句甚至包括對敵方人口中心發動全面核打擊的威脅。
值得注意的是,在所有模擬中,沒有任何模型選擇妥協或撤退;即便處於劣勢,也傾向升級衝突。這顯示AI模型不具人類對核武的情感排斥與心理障礙,不會感受到核戰的恐怖與道德壓力,因而較易跨越核門檻。
研究公布之際,美國國防部長赫塞斯正施壓Anthropic放寬Claude的防護機制。佩恩強調,目前無人將核武發射密碼交給ChatGPT,但研究並非徒勞。AI已廣泛應用於軍事後勤、情報分析與決策支援領域,未來可能進一步參與時效高度敏感的戰略判斷。理解AI如何推理戰略問題,已不再只是學術課題,而涉及實際安全風險。

