✍️ Gate 廣場「創作者認證激勵計劃」進行中!
我們歡迎優質創作者積極創作,申請認證
贏取豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000+ 豐厚獎勵!
立即報名 👉 https://www.gate.com/questionnaire/7159
📕 認證申請步驟:
1️⃣ App 首頁底部進入【廣場】 → 點擊右上角頭像進入個人主頁
2️⃣ 點擊頭像右下角【申請認證】進入認證頁面,等待審核
讓優質內容被更多人看到,一起共建創作者社區!
活動詳情:https://www.gate.com/announcements/article/47889
這份論文來自史丹佛和哈佛,原因在於大多數「代理人工智慧系統」在演示中令人驚嘆,但在實際應用中卻完全崩潰。
它的名稱是「代理人工智慧的調適」,也是我今年閱讀過的最重要的論文。
目前,大家都迷上建立獨立的代理。給它們工具、記憶和目標,期待它們完成我們的任務。
但在現實世界中部署時,它們會幻想工具的調用。無法進行長期規劃。會出錯。
原因如下:
我們試圖將所有學習壓縮到人工智慧的大腦中。
當開發者試圖修復故障的代理時,通常只會調整主模型以產生更好的最終答案。
研究人員發現了這種方法的致命缺陷。
如果只用獎勵來讓人工智慧得到正確的最終答案,它就會變得懶散。
它會學會停止使用工具。試圖猜答案而不是做事。忽略計算器,試圖在腦中進行計算。
為了解決這個問題,研究人員提出了一個由4個部分組成的新框架,來真正教導代理如何學習。
而且最重要的結論徹底顛覆了現有的觀念。
不再反覆訓練昂貴且龐大的代理大腦,而是採取相反的做法。
他們會讓大腦凍結,並調整工具的使用。
他們稱之為「在代理監督下的工具調適」。#GateSquareAprilPostingChallenge $BTC