หยางลี่คุน: การหวังจะทำให้เกิด AGI โดยอิงจาก LLM เพียงอย่างเดียวเป็นเรื่องไร้สาระ ในอนาคต AI จะต้องการโมเดลโลก JEPA (สัมภาษณ์ยาวหลายหมื่นตัวอักษรในการประชุม GTC)

บทความนี้รวบรวมบทสนทนาด้วยวาจาของการสนทนาสาธารณะระหว่าง Yann LeCun หัวหน้านักวิทยาศาสตร์ AI ของ Meta และผู้ชนะรางวัล Turing Award และ Bill Dally หัวหน้านักวิทยาศาสตร์ของ NVIDIA LeCun อธิบายว่าทําไมเขาถึงคิดว่าโมเดลภาษาขนาดใหญ่ (LLM) ไม่สามารถใช้ AGI ได้จริงๆ (เรื่องย่อ: OpenAI releases o3 and o4-mini The strongest inference models: can think about pictures, automatically select tools, and make breakthroughs in mathematics and coding performance) (พื้นหลังเสริม: OpenAI แอบสร้าง "แพลตฟอร์มชุมชนของตัวเอง" ของตัวเองชี้ไปที่ X ของ Musk) เมื่อโมเดลภาษาขนาดใหญ่ (LLM) กําลังเร่งการยอมรับ AI ของโลก Yann LeCun ซึ่งเป็นที่รู้จักในฐานะบิดาแห่งเครือข่ายประสาทเทียมแบบ convolutional และปัจจุบันเป็นหัวหน้านักวิทยาศาสตร์ AI ของ Meta เพิ่งกล่าวอย่างน่าประหลาดใจว่าความสนใจของเขาใน LLM ลดลงและเขายังเชื่อว่ามันอยู่ใกล้กับคอขวดของการพัฒนา LLM ในการสนทนาเชิงลึกกับ Bill Dally หัวหน้านักวิทยาศาสตร์ของ NVIDIA เมื่อเดือนที่แล้ว LeCun ให้รายละเอียดข้อมูลเชิงลึกที่ไม่เหมือนใครของเขาเกี่ยวกับทิศทางในอนาคตของ AI โดยเน้นว่าการทําความเข้าใจโลกทางกายภาพหน่วยความจําที่ยั่งยืนความสามารถในการให้เหตุผลและการวางแผนและความสําคัญของระบบนิเวศโอเพ่นซอร์สเป็นกุญแจสําคัญในการเป็นผู้นําการปฏิวัติ AI คลื่นลูกต่อไป Bill Dally: Yann สิ่งที่น่าสนใจมากมายเกิดขึ้นในพื้นที่ AI ในปีที่ผ่านมา ในความเห็นของคุณอะไรคือการพัฒนาที่น่าตื่นเต้นที่สุดของปีที่ผ่านมา? Yann LeCun: มีมากเกินไปที่จะนับ แต่ให้ฉันบอกคุณสิ่งหนึ่งที่อาจทําให้พวกคุณประหลาดใจ ฉันไม่สนใจโมเดลภาษาขนาดใหญ่ (LLMs) อีกต่อไป LLM อยู่ที่ปลายหางแล้วพวกเขาอยู่ในมือของคนผลิตภัณฑ์ในอุตสาหกรรม แต่พวกเขากําลังปรับปรุงในระดับขอบพยายามที่จะได้รับข้อมูลมากขึ้นพลังการประมวลผลมากขึ้นสร้างข้อมูลสังเคราะห์ ฉันคิดว่ามีปัญหาที่น่าสนใจมากขึ้นในสี่ด้าน: วิธีทําให้เครื่องจักรเข้าใจโลกทางกายภาพวิธีทําให้พวกเขามีความทรงจําที่ยั่งยืนซึ่งไม่ได้พูดถึงมากนักและสองข้อสุดท้ายคือวิธีทําให้พวกเขามีเหตุผลและวางแผน แน่นอนว่ามีความพยายามในการให้ LLM ใช้เหตุผล แต่ในความคิดของฉันนี่เป็นวิธีที่ง่ายมากในการดูเหตุผล ฉันคิดว่าอาจมีวิธีที่ดีกว่าในการทําเช่นนี้ ดังนั้นฉันรู้สึกตื่นเต้นกับสิ่งที่ผู้คนจํานวนมากในชุมชนเทคโนโลยีอาจไม่ตื่นเต้นจนกว่าจะถึงห้าปีนับจากนี้ แต่ตอนนี้พวกเขาดูน่าตื่นเต้นน้อยลงเพราะเป็นเอกสารทางวิชาการที่คลุมเครือ ทําความเข้าใจกับ World Model และ Physical World Bill Dally: แต่มันจะเป็นอย่างไรถ้า LLM ไม่ได้ให้เหตุผลเกี่ยวกับโลกทางกายภาพมีความทรงจําถาวรและการวางแผน? โมเดลพื้นฐานจะเป็นอย่างไร? Yann LeCun: ผู้คนจํานวนมากกําลังทํางานกับโมเดลโลก โมเดลโลกคืออะไร? เราทุกคนมีแบบจําลองของโลกในหัวของเรา มันเป็นสิ่งที่ช่วยให้เราสามารถจัดการกับจิตใจของเราได้ เรามีแบบจําลองของโลกปัจจุบัน คุณรู้ไหมว่าถ้าฉันดันขวดนี้จากด้านบนมันมีแนวโน้มที่จะพลิกคว่ํา แต่ถ้าฉันดันมันจากด้านล่างมันจะเลื่อน ถ้าฉันกดแรงเกินไปมันอาจระเบิดได้ ภาพหน้าจอสัมภาษณ์ Yann LeCun เรามีแบบจําลองของโลกทางกายภาพซึ่งเราได้รับในช่วงเดือนแรกของชีวิตซึ่งช่วยให้เราสามารถรับมือกับโลกแห่งความเป็นจริงได้ การรับมือกับโลกแห่งความเป็นจริงนั้นยากกว่าการรับมือกับภาษา เราต้องการสถาปัตยกรรมระบบที่สามารถจัดการระบบในโลกแห่งความเป็นจริงที่แตกต่างจากที่เราจัดการในปัจจุบันอย่างสิ้นเชิง LLM คาดการณ์โทเค็น แต่โทเค็นสามารถเป็นอะไรก็ได้ โมเดลรถยนต์ขับเคลื่อนด้วยตนเองของเราใช้โทเค็นจากเซ็นเซอร์และสร้างโทเค็นที่ขับเคลื่อนยานพาหนะ ในแง่หนึ่งมันเป็นเหตุผลเกี่ยวกับโลกทางกายภาพอย่างน้อยก็เกี่ยวกับสถานที่ที่ปลอดภัยในการขับขี่และที่ที่คุณไม่ได้ชนเสา Bill Dally: ทําไมโทเค็นถึงไม่ใช่วิธีที่ถูกต้องในการเป็นตัวแทนของโลกทางกายภาพ? Yann LeCun: โทเค็นไม่ต่อเนื่อง เมื่อเราพูดถึงโทเค็นเรามักจะหมายถึงชุดความเป็นไปได้ที่ จํากัด ใน LLM ทั่วไป จํานวนโทเค็นที่เป็นไปได้อยู่ที่ประมาณ 100,000 โทเค็น เมื่อคุณฝึกระบบเพื่อทํานายโทเค็น คุณจะไม่สามารถฝึกให้ระบบทํานายโทเค็นต่อไปนี้ตามลําดับข้อความได้ คุณสามารถสร้างการแจกแจงความน่าจะเป็นเกี่ยวกับโทเค็นที่เป็นไปได้ทั้งหมดในพจนานุกรมของคุณซึ่งเป็นเพียงเวกเตอร์ยาวของตัวเลข 100,000 ตัวระหว่างศูนย์และหนึ่งตัวที่มีผลรวมหนึ่งตัว เรารู้วิธีทําเช่นนั้น แต่เราไม่รู้ว่าจะทําอย่างไรกับภาพยนตร์เรื่องนี้ด้วยข้อมูลอินทรีย์ที่มีมิติสูงและต่อเนื่อง ความพยายามทุกครั้งเพื่อให้ได้ระบบเพื่อทําความเข้าใจโลกหรือสร้างแบบจําลองทางจิตของโลกโดยการฝึกอบรมเพื่อทํานายภาพยนตร์ระดับพิกเซลนั้นล้มเหลวอย่างมาก แม้แต่การฝึกอบรมระบบที่คล้ายกับโครงข่ายประสาทเทียมบางประเภทเพื่อเรียนรู้การแสดงภาพที่ดีก็ล้มเหลวโดยการสร้างภาพใหม่จากเวอร์ชันที่เสียหายหรือแปลงแล้ว พวกเขาทํางานเล็กน้อย แต่ไม่ใช่สถาปัตยกรรมทางเลือกที่เราเรียกว่าการฝังร่วมกันซึ่งโดยทั่วไปจะไม่พยายามสร้างใหม่ในระดับพิกเซล พวกเขาพยายามเรียนรู้การแสดงนามธรรมของภาพภาพยนตร์หรือสัญญาณธรรมชาติที่ได้รับการฝึกฝนเพื่อให้คุณสามารถคาดการณ์ในพื้นที่การแสดงนามธรรมนั้นได้ Yann LeCun: ตัวอย่างที่ฉันใช้มากคือถ้าฉันถ่ายวิดีโอของห้องนี้ย้ายกล้องและหยุดที่นี่แล้วขอให้ระบบทํานายสิ่งที่ตามมาในภาพยนตร์นั้นมันอาจทํานายได้ว่านี่เป็นห้องที่มีคนนั่งอยู่ในนั้นและอื่น ๆ ไม่สามารถคาดเดาได้ว่าแต่ละท่านจะมีหน้าตาเป็นอย่างไร สิ่งนี้ไม่สามารถคาดเดาได้อย่างสมบูรณ์จากฟุตเทจเริ่มต้นของภาพยนตร์ มีหลายสิ่งหลายอย่างในโลกที่คาดเดาไม่ได้ หากคุณฝึกระบบให้คาดการณ์ในระดับพิกเซลระบบจะใช้ทรัพยากรทั้งหมดเพื่อพยายามหารายละเอียดที่ไม่สามารถประดิษฐ์ได้ นี่คือการสูญเสียทรัพยากรอย่างสมบูรณ์ ทุกครั้งที่เราพยายามและฉันทํางานนี้มา 20 ปีโดยใช้ระบบการฝึกอบรมการเรียนรู้ที่ดูแลตนเองโดยการทํานายวิดีโอไม่ทํางาน ใช้ได้เฉพาะในกรณีที่ทําในระดับการนําเสนอ ซึ่งหมายความว่าสคีมาเหล่านั้นไม่ได้ก่อให้เกิด Bill Dally: ถ้าคุณพูดโดยทั่วไปว่าหม้อแปลงไม่มีความสามารถนั้น แต่ผู้คนมีหม้อแปลงวิสัยทัศน์และได้รับผลลัพธ์ที่ยอดเยี่ยม Yann LeCun: ฉันไม่ได้ตั้งใจอย่างนั้น เพราะคุณสามารถใช้หม้อแปลงไฟฟ้าได้ คุณสามารถใส่หม้อแปลงในสถาปัตยกรรมเหล่านั้นได้ มันเป็นเพียงว่าชนิดของสถาปัตยกรรมที่ฉันพูดถึงเรียกว่าการฝังร่วมกันสถาปัตยกรรมทํานาย ดังนั้นนําภาพยนตร์หรือรูปภาพหรืออะไรก็ตามเรียกใช้ผ่านตัวเข้ารหัสคุณจะได้รับการแสดงจากนั้นนําส่วนที่ตามมาของข้อความภาพยนตร์หรือรูปภาพเวอร์ชันที่แปลงแล้วจากนั้นเรียกใช้ผ่านตัวเข้ารหัสและตอนนี้พยายามคาดการณ์ในพื้นที่การแสดงนั้นไม่ใช่ในพื้นที่ป้อนข้อมูล คุณสามารถใช้วิธีการฝึกอบรมเดียวกันซึ่งก็คือกรอกข้อมูลในช่องว่าง แต่คุณทําในพื้นที่แฝงนี้แทนที่จะเป็นตัวแทนเดิม Yann LeCun: ส่วนที่ยากคือถ้าคุณไม่ระวังและไม่ใช้เทคโนโลยีที่ชาญฉลาดระบบจะพัง มันเพิกเฉยต่ออินพุตทั้งหมดโดยสร้างข้อมูลอินพุตจํานวนคงที่และไม่มีอยู่จริงเท่านั้น

ดูต้นฉบับ
เนื้อหานี้มีสำหรับการอ้างอิงเท่านั้น ไม่ใช่การชักชวนหรือข้อเสนอ ไม่มีคำแนะนำด้านการลงทุน ภาษี หรือกฎหมาย ดูข้อจำกัดความรับผิดชอบสำหรับการเปิดเผยความเสี่ยงเพิ่มเติม
  • รางวัล
  • 1
  • แชร์
แสดงความคิดเห็น
0/400
Distangervip
· 04-19 06:55
กำลังมาถึงคลื่นการพัฒนาระลอกถัดไปอย่างหลีกเลี่ยงไม่ได้
ดูต้นฉบับตอบกลับ0
  • ปักหมุด