我的頻道

* 拖拉類別可自訂排序
恢復預設 確定
設定
快訊

中國公務員考試逾157萬人 29日開考 平均錄取率1.6%

1張圖看疫情:全美確診破1324萬 加州逾120萬例

金山人語/AI的成果發表與學術論文

今年一月Nature期刊登載了一篇Google Health的文章,說他們研究的AI可以從女性乳腺的掃描影像,找出乳癌的徵兆,比放射學家判斷的更精確更快速,有擴大發展的潛力。不料這篇文章立即引起學者的質疑,說這個結果在方法上說的不夠詳細,也沒有提供演算法與程式碼,在別的研究人員無法複製重現之下,這一項研究失去科學價值,不過是技術的發表。隔月由31位學者聯名投書自然期刊,十月刊登出來。

包括美國、加拿大、歐洲的31位學者,投書的標題是AI的透明度與重現性(Transparency and Reproducibility),這確實觸及到AI的根本。科學的發展在透明,研究成果可以分享同儕,讓大家引用、評估、作為進一步發展的根基,大家互踩肩膀的進展。AI的研究或有其特殊性,也有人說AI還在實驗階段,所以相對封閉。根據「2020 AI勢態報告」,僅有15%的研究項目供人分享程式碼,而業界較學界更為謹慎,尤其像OpenAI與DeepMind更把編碼包得緊緊的。

說起來AI從實驗室走進我們的生活,在應用上出現了不少偏差,現在慢慢走進醫療的領域,如果不加透明度與重現性的查證,就立即應用,在安全上不無顧慮,Google的乳癌AI經學者指出之後,大概就不會臨床應用了。實驗室的成功,在現實環境可能失敗,讓不同的研究人員在不同的環境複製,可以快速的讓問題出現,AI也會因此更為成熟。

話雖如此,有人擔憂AI已經有「黑盒子」的現象了,我們雖然設計了機器學習模型,但經過重複的運轉,幾乎很難知道如何產生所得到的結果,有誰知道圍棋高手AlphaGo是怎麼算出來下一步棋的?2020的報告說,AI重現的條件有三:程式、資料、硬體,但要滿足這個三條件到一定的程度,能讓AI在另一環境重複出現,困難重重,有的甚至不可能。

拿到了程式碼,就可以在電腦上還原AI的功能?專家說沒那麼容易,因為AI模型涉及許多細節,像是增加參數、調整數值,任何的改變都可能影響結果,所以除了程式碼,還需要元數據(Metadata),來描述模型的調整與訓練,否則程式碼並無用處。另外有的實驗室,用特別的軟體運轉他們的模型,這些軟體又可能有所有權,是否願意與人分享無從得知。

資料分享也是同樣情形,多是專屬不願分享他人,尤其像敏感如醫療個資更不能分享。AI需要大量資料來訓練模型,只有像臉書等大型數位機構才能從用戶取得大量資料,一般試驗室或學校都要花很大精力取得。在不願分享之下,專家建議可以指引方向,告訴別人有哪些地方或有類似的資料。

AI需要龐大的電腦能量來訓練功能,功能越複雜需要的能量越大。例如訓練會寫文章的GPT-3,一位投資人估算可能花了OpenAI一千萬美元,還不包括系統發展與雛形訓練的花費,全數恐要加兩三倍,這種預算非小型研究機構或學校所能負擔,一般的AI實驗室與學校只能用普通的硬體設備。

所以AI的重現確實困難,而論文的發表卻一年多於一年,學者們越感到認證的困難,於是有人從基層發動了。McGill大學也是臉書的AI學者Joelle Pineau,設計一套發表論文的清單,除了文章,還包括程式碼,以及詳細敘述實驗的過程,期望研究人員在大型會議上發表這樣結構的論文。另有學者讓學生把資料較齊全的AI論文,把AI功能還原重現,做為機器學習的課堂作業。又有學者設計網站,做為論文附帶程式碼的連結。

這些學者們的努力,希望AI走向更科學化的發展,並建議有份量的科學期刊,能把有科學價值的論文,與技術成果的發表,分開處理,以維護期刊的信譽。

AI 臉書 Google

上一則

租客法律複雜 專業團體來解析

下一則

受疫衝擊 金山大麻店獲稅務優惠

精彩推薦

data-matched-content-rows-num="10,4" data-matched-content-columns-num="1,2" data-matched-content-ui-type="image_sidebyside,image_stacked"

超人氣

更多 >