北大期中考 174名大二生與AI對決結局讓人意外…

中國新聞組／北京28日電 2025-12-28 09:30 ET

聽新聞

0:00 /0:00

在北京大學化學與分子工程學院，有機化學考試是許多同學痛並快樂著的挑戰。然而，期中考前突如其來的一條通知，卻讓這場考試的氣氛變得不同尋常：「請注意，本次考試範圍不僅限於有機化學。」但比起考試範圍的變化，考場裡迎來的一批「特殊考生」，更讓人意想不到。它們不需要落座，也無需紙筆。它們是GPT、Gemini、DeepSeek……這些當下世界上最聰明的AI，正在雲端與174位北大化學與分子工程學院的大二學生同場競技。這是一場精心設計的「圖靈測試」，也是北大科研團隊為大語言模型投下的一塊「試金石」。

北京日報報導，近日，北京大學化學與分子工程學院聯合北大計算中心、計算機學院、元培學院團隊，發布了最新成果SUPERChem。近期，他們以一套「北大試卷」為標尺，冷靜丈量著AI在科學推理上的真實邊界。

報導指出，打開SUPERChem的題庫，一種「壓迫感」撲面而來。晶體結構的精細解析、反應機理的深度推演、物化性質的定量計算……這500道題目並非來自網絡上隨手可得的公開題庫，而是源於對高難度試題和前沿專業文獻的深度改編。

為什麼要費盡周折重新出題？「因為大模型太會『背書』了。」團隊成員解釋道。互聯網可及的測試題大多已被博聞強識的AI在訓練階段熟讀。而化學，恰恰是一門不能只靠死記硬背的學科。它既有嚴密的邏輯推演，又充滿了對微觀世界的空間想像。

近百名師生—其中不乏奧賽金牌得主—集結起來，決定給AI出一套高門檻、重推理、防作弊的試卷。他們要考的，是AI是否真的「懂」化學。

在這場精心設計的考試中，人類展現出了複雜的科學直覺。作為基線，參與測試的北大化院本科生取得了40.3%的平均準確率。

而AI的表現如何？即便是接受測試的頂尖模型，其成績也僅與低年級本科生的平均水平相當。

讓團隊感到意外的是視覺信息帶來的困惑。化學的語言是圖形，分子結構、反應機理圖蘊含著關鍵信息。然而對於部分模型而言，當引入圖像信息時，其準確率不升反降。這說明，當前的AI在將視覺信息轉化為化學語義時，仍存在明顯的感知瓶頸。

團隊發現，AI的推理鏈條往往斷裂於產物結構預測、反應機理識別以及構效關系分析等高階任務。當前的頂尖模型雖然擁有海量的知識儲備，但在處理需要嚴密邏輯和深刻理解的硬核化學問題時，仍顯得力不從心。

報導指出，SUPERChem的誕生，填補了化學領域多模態深度推理評測的空白。團隊發布這項成果，並非為了證明AI的短板，而是為了推動它走得更遠。

世報陪您半世紀

• 世界日報50周年／回顧紐約、舊金山創刊史細數名人留影、精彩報導

• 「女賭神」曹紅靠21點翻身的傳奇人生被拍成好萊塢電影

• 行為藝術家謝德慶跳船來美將生命變作品

• 蘇起憶世報如及時雨像大補丸

AI DeepSeek Gemini

上一則

廣西2男瑣事打架先動手的罰100元還手的為何拘3天？

下一則

我的頻道

川普分享歧視影片歐巴馬首度回應：羞恥與禮節不復存在

美駐中國外交官穿大花襖、吹嗩吶齊唱「大東北我家鄉」

北大期中考 174名大二生與AI對決結局讓人意外…

廣西2男瑣事打架先動手的罰100元還手的為何拘3天？

人民日報：「讓美國再次偉大」與中國發展不相悖

延伸閱讀

雪豹「凌寒」當年腦梗亡西野園團隊「一群男人哭得像傻子」

蘋果衝手機買氣深度重組AI團隊

德智庫：美國關稅重創德國汽車機械出口走弱成新常態

中恢復加拿大團隊旅遊後首批中客抵達溫哥華

熱門新聞

美海關頻問How much money？華人現金被扣只因漏填1表格

巴拿馬港口裁決中學者籲反制：中國若有相關財產可考慮沒收

房間有「第三者」 BBC揭中國旅館偷拍住客性愛被直播

4天4000公里 2洋人從海南打車到哈爾濱改寫出租司機人生

美監獄=英語速成班？中國小留學生關半年連翻譯都免了

中經濟低迷新證據外資不來內資出海投資落差20多年最大

超人氣

「女賭神」曹紅靠21點翻身的傳奇人生被拍成好萊塢電影

谷愛凌獲北京政府資助巨款預算文件短暫曝光又刪除

中經濟低迷新證據外資不來內資出海投資落差20多年最大

賣血最大國全美每天20萬人賣血維生去年達47億元

新規上路醫保名單大洗牌長期看同一醫師保險突被拒

川普分享歧視影片 歐巴馬首度回應：羞恥與禮節不復存在

美駐中國外交官穿大花襖、吹嗩吶 齊唱「大東北我家鄉」

北大期中考 174名大二生與AI對決 結局讓人意外…

廣西2男瑣事打架 先動手的罰100元 還手的為何拘3天？

人民日報：「讓美國再次偉大」與中國發展不相悖

延伸閱讀

雪豹「凌寒」當年腦梗亡 西野園團隊「一群男人哭得像傻子」

蘋果衝手機買氣 深度重組AI團隊

德智庫：美國關稅重創德國汽車機械 出口走弱成新常態

中恢復加拿大團隊旅遊後 首批中客抵達溫哥華

熱門新聞

美海關頻問How much money？華人現金被扣 只因漏填1表格

巴拿馬港口裁決 中學者籲反制：中國若有相關財產 可考慮沒收

房間有「第三者」 BBC揭中國旅館偷拍 住客性愛被直播

4天4000公里 2洋人從海南打車到哈爾濱 改寫出租司機人生

美監獄=英語速成班？中國小留學生關半年連翻譯都免了

中經濟低迷新證據 外資不來內資出海 投資落差20多年最大

「女賭神」曹紅 靠21點翻身的傳奇人生 被拍成好萊塢電影

谷愛凌獲北京政府資助巨款 預算文件短暫曝光又刪除

中經濟低迷新證據 外資不來內資出海 投資落差20多年最大

賣血最大國 全美每天20萬人賣血維生 去年達47億元

新規上路醫保名單大洗牌 長期看同一醫師保險突被拒

川普分享歧視影片歐巴馬首度回應：羞恥與禮節不復存在

美駐中國外交官穿大花襖、吹嗩吶齊唱「大東北我家鄉」

北大期中考 174名大二生與AI對決結局讓人意外…

廣西2男瑣事打架先動手的罰100元還手的為何拘3天？

雪豹「凌寒」當年腦梗亡西野園團隊「一群男人哭得像傻子」

蘋果衝手機買氣深度重組AI團隊

德智庫：美國關稅重創德國汽車機械出口走弱成新常態

中恢復加拿大團隊旅遊後首批中客抵達溫哥華

美海關頻問How much money？華人現金被扣只因漏填1表格

巴拿馬港口裁決中學者籲反制：中國若有相關財產可考慮沒收

房間有「第三者」 BBC揭中國旅館偷拍住客性愛被直播

4天4000公里 2洋人從海南打車到哈爾濱改寫出租司機人生

中經濟低迷新證據外資不來內資出海投資落差20多年最大

「女賭神」曹紅靠21點翻身的傳奇人生被拍成好萊塢電影

谷愛凌獲北京政府資助巨款預算文件短暫曝光又刪除

中經濟低迷新證據外資不來內資出海投資落差20多年最大

賣血最大國全美每天20萬人賣血維生去年達47億元

新規上路醫保名單大洗牌長期看同一醫師保險突被拒