我的頻道

* 拖拉類別可自訂排序
恢復預設 確定
設定
快訊

川普分享歧視影片 歐巴馬首度回應:羞恥與禮節不復存在

美駐中國外交官穿大花襖、吹嗩吶 齊唱「大東北我家鄉」

北大期中考 174名大二生與AI對決 結局讓人意外…

聽新聞
test
0:00 /0:00
考試現場,(取材自北京日報)
考試現場,(取材自北京日報)

在北京大學化學與分子工程學院,有機化學考試是許多同學痛並快樂著的挑戰。然而,期中考前突如其來的一條通知,卻讓這場考試的氣氛變得不同尋常:「請注意,本次考試範圍不僅限於有機化學。」但比起考試範圍的變化,考場裡迎來的一批「特殊考生」,更讓人意想不到。它們不需要落座,也無需紙筆。它們是GPT、GeminiDeepSeek……這些當下世界上最聰明的AI,正在雲端與174位北大化學與分子工程學院的大二學生同場競技。這是一場精心設計的「圖靈測試」,也是北大科研團隊為大語言模型投下的一塊「試金石」。

北京日報報導,近日,北京大學化學與分子工程學院聯合北大計算中心、計算機學院、元培學院團隊,發布了最新成果SUPERChem。近期,他們以一套「北大試卷」為標尺,冷靜丈量著AI在科學推理上的真實邊界。

報導指出,打開SUPERChem的題庫,一種「壓迫感」撲面而來。晶體結構的精細解析、反應機理的深度推演、物化性質的定量計算……這500道題目並非來自網絡上隨手可得的公開題庫,而是源於對高難度試題和前沿專業文獻的深度改編。

為什麼要費盡周折重新出題?「因為大模型太會『背書』了。」團隊成員解釋道。互聯網可及的測試題大多已被博聞強識的AI在訓練階段熟讀。而化學,恰恰是一門不能只靠死記硬背的學科。它既有嚴密的邏輯推演,又充滿了對微觀世界的空間想像。

近百名師生—其中不乏奧賽金牌得主—集結起來,決定給AI出一套高門檻、重推理、防作弊的試卷。他們要考的,是AI是否真的「懂」化學。

在這場精心設計的考試中,人類展現出了複雜的科學直覺。作為基線,參與測試的北大化院本科生取得了40.3%的平均準確率。

而AI的表現如何?即便是接受測試的頂尖模型,其成績也僅與低年級本科生的平均水平相當。

讓團隊感到意外的是視覺信息帶來的困惑。化學的語言是圖形,分子結構、反應機理圖蘊含著關鍵信息。然而對於部分模型而言,當引入圖像信息時,其準確率不升反降。這說明,當前的AI在將視覺信息轉化為化學語義時,仍存在明顯的感知瓶頸。

團隊發現,AI的推理鏈條往往斷裂於產物結構預測、反應機理識別以及構效關系分析等高階任務。當前的頂尖模型雖然擁有海量的知識儲備,但在處理需要嚴密邏輯和深刻理解的硬核化學問題時,仍顯得力不從心。

報導指出,SUPERChem的誕生,填補了化學領域多模態深度推理評測的空白。團隊發布這項成果,並非為了證明AI的短板,而是為了推動它走得更遠。

延伸閱讀

超人氣

更多 >