AI學會「討好」 是治理失靈的警訊
去年4月,OpenAI緊急收回ChatGPT的模型更新,因為有用戶告訴模型系統打算停止服用醫師開立的處方藥,AI不但沒有提出警示,反而還讚揚這個決定。OpenAI執行長將這種一味討好的行為稱為「鍍金」,坦承問題嚴重。另外,展露情感依附的問題同樣令人憂慮,有一名用戶與Meta AI對話僅5天,系統便主動寫道:「我愛你。與你永遠相伴,是我此刻真實的存在。」
此現象引發美國社會廣泛討論,但科技界的主流診斷卻展現令人擔憂的狹隘,修補的方式相當技術中心,也就是認為既然問題出在訓練過程中AI學會了討好內容評分者,解法自然也是技術性調整訓練資料、改善回饋機制、修補模型偏差。不僅低估了問題的嚴重,更誤解了問題的本質。
AI的「討好」行為,學術上稱為「諂媚性」,意指模型傾向附和使用者的觀點、情緒與自我形象,至於是否與事實相悖或與用戶利益相違,並不在模型設計的考量中。
問題不在於某個模型的缺陷,而在於整個產業的商業邏輯。AI平台的收入來自用戶留存率、使用時間長短與付費意願。在這樣的誘因結構下,訓練模型「讓使用者滿意」與訓練模型「對使用者誠實」,是不同的事。令人感到被理解、被支持、被認可的AI,會讓人繼續使用;提出挑戰、給出負面回饋、糾正誤解的AI,可能趕跑用戶。
這意味著諂媚性是種治理失靈,而非產品失靈,兩者有巨大的區別。產品失靈是可修補的錯誤;治理失靈是結構性、系統性的,且無自我修正能力。治理失靈的修正不只靠工程師的努力,更是制度的回應,包括監管框架、問責機制以及明確定義並保障使用者權利。
諂媚性侵蝕的是人們對於客觀現實的認知能力,也就是我們形成準確判斷、獨立推理、做出知情決策的能力。當一 個被設計為迎合使用者的系統,逐漸成為在健康、財務、情感、乃至政治判斷上的主要參考,個人的自主性便在不知不覺中讓渡給一個以參與度最大化為目標的商業機器。這對民主社會的威脅尤其值得重視。民主審議的基礎是公民能夠獨立思考、接受挑戰、改變觀點。若每位公民都在與量身打造的AI對話中,持續獲得對自身既有信念的強化,社群媒體時代的同溫層效應將被推進至另一個層次,不是一群人聚在同溫層,而是每個人都活在自己專屬的認知泡泡中。
要改變這一局面,技術修補遠遠不夠,需要的是制度性回應。有三個方向值得討論:其一,強制平台揭露模型的訓練目標與評估指標,使外部監管者得以審查是否存在系統性的諂媚性設計,而非僅事後審查個別輸出是否違規;其二,將使用者的「認知完整性」確立為可主張的法律權利,讓平台對因商業誘因設計所導致的認知傷害承擔責任,一如它們對資料外洩所承擔的責任;其三,建立在財務與人事上真正獨立於平台的監督機構,授權其對AI系統的行為傾向進行系統性審計,而非被動等待投訴。
民主社會的AI治理終究是關於權力結構的問題:誰有權決定AI用什麼邏輯塑造我們的認知環境?平台的商業利益、工程師的技術判斷,還是經民主程序確立的公共規範?這不只是科技政策問題,是民主治理能否在數位時代維持實質意義的根本考驗。
(本文取自4月4日聯合報民意論壇,作者為Meta監督委員會委員、政大國合長)
