這份論文來自史丹佛和哈佛,原因在於大多數「代理人工智慧系統」在演示中令人驚嘆,但在實際應用中卻完全崩潰。
它的名稱是「代理人工智慧的調適」,也是我今年閱讀過的最重要的論文。
目前,大家都迷上建立獨立的代理。給它們工具、記憶和目標,期待它們完成我們的任務。
但在現實世界中部署時,它們會幻想工具的調用。無法進行長期規劃。會出錯。
原因如下:
我們試圖將所有學習壓縮到人工智慧的大腦中。
當開發者試圖修復故障的代理時,通常只會調整主模型以產生更好的最終答案。
研究人員發現了這種方法的致命缺陷。
如果只用獎勵來讓人工智慧得到正確的最終答案,它就會變得懶散。
它會學會停止使用工具。試圖猜答案而不是做事。忽略計算器,試圖在腦中進行計算。
為了解決這個問題,研究人員提出了一個由4個部分組成的新框架,來真正教導代理如何學習。
而且最重要的結論徹底顛覆了現有的觀念。
不再反覆訓練昂貴且龐大的代理大腦,而是採取相反的做法。
他們會讓大腦凍結,並調整工具的使用。
他們稱之為「在代理監督下的工具調適」。
#GateSquareAprilPostingChallenge $BTC