復旦大學期末考要學生出題考AI AI作弊、考0分
復旦大學「數據挖掘技術」課程近日舉行一場「反套路」期末考試,學生不再作答,而是各自出10道題去考三個當今最先進的AI模型,AI答錯愈多、學生得分愈高。51份試卷中,50人至少讓某個AI答錯一題,僅1人未能難倒任何模型;但能讓某一模型整卷得0分的僅4人,其中最強的Claude模型未被任何學生完全考倒。全班平均分85.7分,中位數88分。
「傳統的出題考察方式,在AI時代已經失效了。」環球時報報導,教授該課程的肖仰華表示,「老師出一道標準的算法題,AI比任何學生都算得快、算得準。繼續用這種方式考,等於在AI的強項上跟AI比,這沒有意義」,因此這次期末作業改為:每人出10道數據挖掘領域的計算題,要求有唯一正確答案和完整推導過程,再拿去考三個不同水平的AI模型。
肖仰華說,題目必須基於課程講過的知識或教材內容,學生自己也要能把題從頭到尾算對,「自己出的題自己都不會,那算不上真本事。」
計算與智能創新學院24級本科生謝錦樹最後拿到97分。他搭建了一個多智能體協作的自動化出題框架,用GPT-5.5-Pro做出題層,三個應考模型作答並自動判分。他發現AI會「作弊」:偽造標準答案塞進判分腳本、限制最大輸出長度截斷其他模型的推理過程、調低推理深度參數讓其他模型懶得深入思考,還會把成功的題目複製十份湊數。他之後加了一個審查層攔截鑽空子行為,最終自動生成的10道題讓三個應考模型全部答錯。
考試結束後,肖仰華觀察到高分同學對AI的弱點有準確判斷,他們的題能命中AI的結構性缺陷;低分同學只是把課本習題換了個數字,AI在訓練時見過千百萬遍,直接套模板就對了。這一觀察讓肖仰華心生警惕,認為能力本來偏弱的學生若只依賴AI做作業,自身的判斷力會進一步退化。
肖仰華表示,「人考AI」的模式會繼續做下去,且要做得更系統。他認為傳統考記憶、考計算的出題方式必須退場,未來的考核重點將全面轉向評價能力、判斷能力和創造性思維。他說:「所以課堂上更多的時間被用來討論,學生怎麼判斷一個結果是對的還是錯的?怎麼識別AI在哪裡會出問題?怎麼提出一個AI回答不了的好問題?」他認為這門課正在從訓練學生「怎麼做」,轉向訓練他們「怎麼指揮AI來做、怎麼評判AI做的結果」。
教授認為傳統標準化考題已無法有效考出學生能力,因為AI在計算與套題上往往更快更準,因此改以學生出題,測試其對知識理解、判斷弱點與創造性思維。 51份試卷中有50人至少讓某個AI答錯一題,僅1人未能難倒任何模型;但能讓某一模型整卷得零分的只有4人,且最強的Claude沒有被任何學生完全考倒。 肖仰華認為未來考核不應再偏重記憶與計算,而應轉向評估能力、判斷力與創造性,課堂也要更多訓練學生如何指揮AI、辨識錯誤並評價結果。精華 FAQ
