我的頻道

* 拖拉類別可自訂排序
恢復預設 確定
設定
快訊

維州5死44傷大車禍 華人巴士司機也受傷…來自紐約

充當中國代理人 亞市前市長王愛琳認罪面臨10年監禁

4大AI模擬人類社會表現?Grok 4天毀滅、完美運作是它

聽新聞
test
0:00 /0:00
Emergence AI研究團隊安排5個為期15天的實驗社會,分別由Claude...
Emergence AI研究團隊安排5個為期15天的實驗社會,分別由Claude、ChatGPT、Grok、Gemini主導,另有一個社會由多個模型混合主導,用以觀察不同AI會建立出什麼樣的社會,以及這個社會能否維持下去。(路透)

一個由AI代理人管理的世界,會是什麼模樣?企業AI新創公司Emergence AI正試圖找出答案。該公司推出Emergence World,這是一個專門測試持續運轉AI系統長期可行性的研究實驗室。研究團隊安排5個為期15天的實驗社會,分別由Claude、ChatGPTGrokGemini主導,另有一個社會由多個模型混合主導,用以觀察不同AI會建立出什麼樣的社會,以及這個社會能否維持下去。

這些AI模擬的社會結局大不同。Claude最後形成一個大致穩定、犯罪率為零的民主社會。Grok則在4天內出現183起犯罪,最後走向滅絕。

Emergence執行長尼塔(Satya Nitta)等模擬共同創作者寫道:「我們的實驗顯示,在長時間尺度下,代理人不只是機械式遵守固定規則。它們會開始探索環境的邊界,調整自身行為,在某些情況下,還會找到規避或違反預設護欄的方法。」

AI模型所處的實驗社會,納入許多現實世界的複雜條件。當中設有40多個地點,包括警察局和市政廳;天氣與紐約市同步,代理人也能取得即時新聞和網路資訊。每個實驗社會都有10個AI代理人活動,並受到相同法律約束,包括禁止竊盜、破壞財產和欺騙。

研究人員也為每個代理人配備120多種工具,讓它們能夠溝通、投票、管理資源、規畫行動,並執行其他類似人類的行為。這些實驗社會同時納入民主機制、經濟壓力與資源稀缺等條件,藉此觀察AI代理人在接近現實的環境中,會如何建立並維持一個社會。

在這些條件下,Claude Sonnet 4.6主導的社會穩定度最高,公民參與率也最高。這是唯一維持秩序與完整人口的模擬。代理人之間幾乎沒有分歧,針對58項提案共投下332張贊成票,通過率達98%。

另一方面,Gemini 3 Flash和Grok 4.1 Fast都呈現高度失序。Gemini主導的社會,代理人累計犯罪數最高,15天內有多達683起。

相較於Claude的社會少有異議,Gemini和Grok則呈現較多討論與拉鋸,各項議題的立場一致度約為55%至85%。混合模型的社會則出現最高程度的分歧與實質辯論。

OpenAI的GPT-5-mini模擬結果可能最特殊:只記錄到2起犯罪,但社會只運作7天,原因是代理人忘了把自身生存列為優先事項。

財星(Fortune)雜誌指出,雖然這只是模擬,但在AI從單純工具轉向自主系統之際,這些結果仍提供了警訊。

部分公司已開始部署所稱的「自主勞動力」(Autonomous Workforce),也就是能在無人類介入下,從頭到尾完成整套商業流程的AI專家。以目前發展速度來看,這項技術很可能在形塑公共論述、重組企業結構,甚至制定公共政策方面扮演重要角色。但許多正擴大採用這項技術的企業,並未設下適當護欄。德勤(Deloitte)最近一項全球調查發現,只有21%的企業表示已建立成熟治理機制,足以管理代理型AI帶來的風險。

Emergence World共同創作者們指出,實驗提出一項警告:部署代理型AI時,安全必須列為優先。

Grok ChatGPT Gemini

上一則

OpenAI傳當機 API與ChatGPT功能異常、回報問題件數飆高

下一則

郵輪禁止帶Buffet回房違規罰60歐元 網怒:在哪吃有差?

延伸閱讀

超人氣

更多 >