Yang Likun: Sadece LLM ile AGI'yi gerçekleştirmek saçmalık, AI'nın geleceği JEPA dünya modeline ihtiyaç duyacak (GTC konferansı on bin kelimelik röportaj)
Bu makale, Meta'nın baş yapay zeka bilimcisi ve Turing Ödülü sahibi Yann LeCun ile NVIDIA baş bilim insanı Bill Dally arasındaki halka açık bir konuşmanın kelimesi kelimesine bir dökümünü derlemektedir. LeCun, neden büyük dil modellerinin (LLM) AGI'yi asla gerçekten uygulayamayacağını düşündüğünü açıklıyor. (Özet: OpenAI, o3 ve o4-mini'yi piyasaya sürdü En güçlü çıkarım modelleri: resimler hakkında düşünebilir, araçları otomatik olarak seçebilir ve matematik ve kodlama performansında atılımlar yapabilir) (Arka plan eki: OpenAI, Musk'ın X'ine işaret ederek gizlice kendi "kendi topluluk platformunu" oluşturur) Büyük dil modelleri (LLM) dünyanın yapay zekayı kucaklamasını hızlandırırken, Evrişimli sinir ağlarının babası olarak bilinen ve şu anda Meta'nın baş yapay zeka bilimcisi olan Yann LeCun, kısa süre önce şaşırtıcı bir şekilde LLM'ye olan ilgisinin azaldığını ve hatta bunun LLM geliştirmenin darboğazına yakın olduğuna inandığını söyledi. Geçen ay NVIDIA Baş Bilim İnsanı Bill Dally ile derinlemesine bir görüşmede LeCun, yapay zekanın gelecekteki yönüne ilişkin benzersiz içgörülerini detaylandırdı ve fiziksel dünyayı, kalıcı hafızayı, akıl yürütme ve planlama yeteneklerini ve açık kaynak ekosisteminin önemini anlamanın bir sonraki AI devrimi dalgasına liderlik etmenin anahtarı olduğunu vurguladı. Bill Dally: Yann, geçen yıl yapay zeka alanında pek çok ilginç şey oldu. Sizce son bir yılın en heyecan verici gelişmesi ne oldu? Yann LeCun: Sayılamayacak kadar çok, ama bazılarınızı şaşırtabilecek bir şey söyleyeyim. Artık büyük dil modelleriyle (LLM'ler) o kadar ilgilenmiyorum. LLM'ler zaten kuyruk ucundalar, sektördeki ürün insanlarının elindeler, ancak marjinal düzeyde gelişiyorlar, daha fazla veri, daha fazla bilgi işlem gücü elde etmeye, sentetik veri üretmeye çalışıyorlar. Bence dört alanda daha ilginç problemler var: makinelerin fiziksel dünyayı anlamaları nasıl sağlanır, kalıcı bir hafızaya sahip olmaları nasıl sağlanır, ki bu çok fazla konuşulmaz ve son ikisi onları akıl yürütmeye ve planlamaya nasıl getirecekleri. Tabii ki, LLM'nin akıl yürütmesini sağlamak için bazı çabalar sarf edildi, ancak bence bu, akıl yürütmeye bakmanın çok basitleştirilmiş bir yolu. Bence bunu yapmanın daha iyi bir yolu olabilir. Bu yüzden, teknoloji camiasındaki pek çok insanın bundan beş yıl sonrasına kadar heyecanlanmayabileceği şeyler beni heyecanlandırıyor. Ama şimdi, daha az heyecan verici görünüyorlar çünkü bazı belirsiz akademik makaleler. Dünya Modelini ve Fiziksel Dünyayı Anlamak Bill Dally: Ama LLM fiziksel dünya hakkında akıl yürütmeseydi, kalıcı hafızaya sahip olmasaydı ve planlama yapmasaydı ne olurdu? Temel model ne olacak? Yann LeCun: Pek çok insan dünya modeli üzerinde çalışıyor. Dünya modeli nedir? Hepimizin kafasında dünyanın modelleri var. Temelde zihnimizi manipüle etmemize izin veren bir şey. Mevcut dünyanın bir modeline sahibiz. Bilirsiniz, bu şişeyi yukarıdan itersem devrilmesi muhtemeldir, ancak alttan itersem kayar. Çok sert bastırırsam patlayabilir. Yann LeCun röportaj ekran görüntüsü Hayatımızın ilk aylarında edindiğimiz, gerçek dünyayla başa çıkmamızı sağlayan fiziksel dünya modellerimiz var. Gerçek dünyayla başa çıkmak, dille başa çıkmaktan çok daha zordur. Şu anda uğraştığımızdan tamamen farklı olan gerçek dünya sistemlerini gerçekten idare edebilecek bir sistem mimarisine ihtiyacımız var. LLM belirteçleri tahmin eder, ancak belirteçler herhangi bir şey olabilir. Kendi kendini süren araba modelimiz, sensörlerden gelen jetonları kullanır ve aracı süren jetonlar üretir. Bir anlamda, fiziksel dünya hakkında, en azından nerede araba kullanmanın güvenli olduğu ve nerede bir direğe çarpmadığınız hakkında akıl yürütüyor. Bill Dally: Token neden fiziksel dünyayı temsil etmenin doğru yolu değil? Yann LeCun: Jetonlar ayrıktır. Jetonlar hakkında konuştuğumuzda, genellikle sınırlı bir olasılıklar kümesini kastediyoruz. Tipik bir LLM'de olası token sayısı 100.000 civarındadır. Belirteçleri tahmin etmek için bir sistemi eğittiğinizde, bir metin dizisinde tam olarak aşağıdaki belirteçleri tahmin etmek için asla eğitemezsiniz. Sözlüğünüzdeki tüm olası belirteçler hakkında, toplamı bir olan sıfır ile bir arasında 100.000 sayıdan oluşan uzun bir vektör olan bir olasılık dağılımı oluşturabilirsiniz. Bunu nasıl yapacağımızı biliyoruz, ama filmle, bu yüksek boyutlu, sürekli organik verilerle ne yapacağımızı bilmiyoruz. Piksel seviyesindeki filmleri tahmin etmek için eğiterek dünyayı anlamak veya dünyanın zihinsel bir modelini oluşturmak için bir sistem elde etmeye yönelik her girişim büyük ölçüde başarısız oldu. Bir görüntünün iyi bir temsilini öğrenmek için bir tür sinir ağına benzeyen bir sistemi eğitmek bile, görüntüyü bozuk veya dönüştürülmüş bir sürümden yeniden oluşturarak başarısız olur. Biraz çalışıyorlar, ancak temelde piksel düzeyinde yeniden oluşturmaya çalışmayan ortak gömme dediğimiz alternatif mimariler kadar iyi değiller. Eğitilmekte olan bir görüntünün, filmin veya doğal sinyalin soyut bir temsilini öğrenmeye çalışırlar, böylece bu soyut temsil alanında tahminlerde bulunabilirsiniz. Yann LeCun: Çokça kullandığım örnek, eğer bu odanın bir videosunu çekersem, kamerayı hareket ettirirsem ve burada durursam ve sonra sistemden bu filmin devamında ne olacağını tahmin etmesini istersem, bunun içinde insanların oturduğu bir oda olduğunu tahmin edebilir. Her birinizin neye benzeyeceğini tahmin edemez. Bu, filmin ilk görüntülerinden tamamen tahmin edilemez. Dünyada öngörülemeyen birçok şey var. Bir sistemi piksel düzeyinde tahminler yapacak şekilde eğitirseniz, tüm kaynaklarını icat edemeyeceği ayrıntıları anlamaya çalışarak harcayacaktır. Bu tam bir kaynak israfıdır. Her denediğimizde ve 20 yıldır bunun üzerinde çalışıyorum, videoları tahmin ederek kendi kendini denetleyen bir öğrenme eğitim sistemi kullanmak işe yaramıyor. Sadece sunum düzeyinde yapılırsa geçerlidir. Bu, bu şemaların üretken olmadığı anlamına gelir. Bill Dally: Temel olarak transformatörlerin bu yeteneğe sahip olmadığını söylüyorsanız, ancak insanların görüntü transformatörleri var ve harika sonuçlar alıyorlar. Yann LeCun: Bunu demek istemedim, çünkü bunun için bir transformatör kullanabilirsiniz. Transformatörleri bu mimarilere koyabilirsiniz. Sadece bahsettiğim mimari türüne ortak gömme tahmine dayalı mimari deniyor. Yani, bir film ya da görüntü ya da her neyse, onu bir kodlayıcıdan geçirin, bir temsil elde edersiniz ve sonra bu metnin, filmin veya görüntünün dönüştürülmüş versiyonunun sonraki kısımlarını alın ve ayrıca bir kodlayıcıdan geçirin, ve şimdi bu temsil alanında tahminler yapmaya çalışın, girdi alanında değil. Boşlukları doldurmak olan aynı eğitim yöntemini kullanabilirsiniz, ancak bunu orijinal temsilden ziyade bu gizli alanda yaparsınız. Yann LeCun: İşin zor yanı, eğer dikkatli olmazsanız ve akıllı bir teknoloji kullanmazsanız, sistem çökecektir. Girdiyi tamamen yok sayar, yalnızca sabit, var olmayan miktarda girdi bilgisi üretir.
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
1 Likes
Reward
1
1
Share
Comment
0/400
Distanger
· 04-19 06:55
kaçınılmaz olarak bir sonraki gelişim dalgası geliyor
Yang Likun: Sadece LLM ile AGI'yi gerçekleştirmek saçmalık, AI'nın geleceği JEPA dünya modeline ihtiyaç duyacak (GTC konferansı on bin kelimelik röportaj)
Bu makale, Meta'nın baş yapay zeka bilimcisi ve Turing Ödülü sahibi Yann LeCun ile NVIDIA baş bilim insanı Bill Dally arasındaki halka açık bir konuşmanın kelimesi kelimesine bir dökümünü derlemektedir. LeCun, neden büyük dil modellerinin (LLM) AGI'yi asla gerçekten uygulayamayacağını düşündüğünü açıklıyor. (Özet: OpenAI, o3 ve o4-mini'yi piyasaya sürdü En güçlü çıkarım modelleri: resimler hakkında düşünebilir, araçları otomatik olarak seçebilir ve matematik ve kodlama performansında atılımlar yapabilir) (Arka plan eki: OpenAI, Musk'ın X'ine işaret ederek gizlice kendi "kendi topluluk platformunu" oluşturur) Büyük dil modelleri (LLM) dünyanın yapay zekayı kucaklamasını hızlandırırken, Evrişimli sinir ağlarının babası olarak bilinen ve şu anda Meta'nın baş yapay zeka bilimcisi olan Yann LeCun, kısa süre önce şaşırtıcı bir şekilde LLM'ye olan ilgisinin azaldığını ve hatta bunun LLM geliştirmenin darboğazına yakın olduğuna inandığını söyledi. Geçen ay NVIDIA Baş Bilim İnsanı Bill Dally ile derinlemesine bir görüşmede LeCun, yapay zekanın gelecekteki yönüne ilişkin benzersiz içgörülerini detaylandırdı ve fiziksel dünyayı, kalıcı hafızayı, akıl yürütme ve planlama yeteneklerini ve açık kaynak ekosisteminin önemini anlamanın bir sonraki AI devrimi dalgasına liderlik etmenin anahtarı olduğunu vurguladı. Bill Dally: Yann, geçen yıl yapay zeka alanında pek çok ilginç şey oldu. Sizce son bir yılın en heyecan verici gelişmesi ne oldu? Yann LeCun: Sayılamayacak kadar çok, ama bazılarınızı şaşırtabilecek bir şey söyleyeyim. Artık büyük dil modelleriyle (LLM'ler) o kadar ilgilenmiyorum. LLM'ler zaten kuyruk ucundalar, sektördeki ürün insanlarının elindeler, ancak marjinal düzeyde gelişiyorlar, daha fazla veri, daha fazla bilgi işlem gücü elde etmeye, sentetik veri üretmeye çalışıyorlar. Bence dört alanda daha ilginç problemler var: makinelerin fiziksel dünyayı anlamaları nasıl sağlanır, kalıcı bir hafızaya sahip olmaları nasıl sağlanır, ki bu çok fazla konuşulmaz ve son ikisi onları akıl yürütmeye ve planlamaya nasıl getirecekleri. Tabii ki, LLM'nin akıl yürütmesini sağlamak için bazı çabalar sarf edildi, ancak bence bu, akıl yürütmeye bakmanın çok basitleştirilmiş bir yolu. Bence bunu yapmanın daha iyi bir yolu olabilir. Bu yüzden, teknoloji camiasındaki pek çok insanın bundan beş yıl sonrasına kadar heyecanlanmayabileceği şeyler beni heyecanlandırıyor. Ama şimdi, daha az heyecan verici görünüyorlar çünkü bazı belirsiz akademik makaleler. Dünya Modelini ve Fiziksel Dünyayı Anlamak Bill Dally: Ama LLM fiziksel dünya hakkında akıl yürütmeseydi, kalıcı hafızaya sahip olmasaydı ve planlama yapmasaydı ne olurdu? Temel model ne olacak? Yann LeCun: Pek çok insan dünya modeli üzerinde çalışıyor. Dünya modeli nedir? Hepimizin kafasında dünyanın modelleri var. Temelde zihnimizi manipüle etmemize izin veren bir şey. Mevcut dünyanın bir modeline sahibiz. Bilirsiniz, bu şişeyi yukarıdan itersem devrilmesi muhtemeldir, ancak alttan itersem kayar. Çok sert bastırırsam patlayabilir. Yann LeCun röportaj ekran görüntüsü Hayatımızın ilk aylarında edindiğimiz, gerçek dünyayla başa çıkmamızı sağlayan fiziksel dünya modellerimiz var. Gerçek dünyayla başa çıkmak, dille başa çıkmaktan çok daha zordur. Şu anda uğraştığımızdan tamamen farklı olan gerçek dünya sistemlerini gerçekten idare edebilecek bir sistem mimarisine ihtiyacımız var. LLM belirteçleri tahmin eder, ancak belirteçler herhangi bir şey olabilir. Kendi kendini süren araba modelimiz, sensörlerden gelen jetonları kullanır ve aracı süren jetonlar üretir. Bir anlamda, fiziksel dünya hakkında, en azından nerede araba kullanmanın güvenli olduğu ve nerede bir direğe çarpmadığınız hakkında akıl yürütüyor. Bill Dally: Token neden fiziksel dünyayı temsil etmenin doğru yolu değil? Yann LeCun: Jetonlar ayrıktır. Jetonlar hakkında konuştuğumuzda, genellikle sınırlı bir olasılıklar kümesini kastediyoruz. Tipik bir LLM'de olası token sayısı 100.000 civarındadır. Belirteçleri tahmin etmek için bir sistemi eğittiğinizde, bir metin dizisinde tam olarak aşağıdaki belirteçleri tahmin etmek için asla eğitemezsiniz. Sözlüğünüzdeki tüm olası belirteçler hakkında, toplamı bir olan sıfır ile bir arasında 100.000 sayıdan oluşan uzun bir vektör olan bir olasılık dağılımı oluşturabilirsiniz. Bunu nasıl yapacağımızı biliyoruz, ama filmle, bu yüksek boyutlu, sürekli organik verilerle ne yapacağımızı bilmiyoruz. Piksel seviyesindeki filmleri tahmin etmek için eğiterek dünyayı anlamak veya dünyanın zihinsel bir modelini oluşturmak için bir sistem elde etmeye yönelik her girişim büyük ölçüde başarısız oldu. Bir görüntünün iyi bir temsilini öğrenmek için bir tür sinir ağına benzeyen bir sistemi eğitmek bile, görüntüyü bozuk veya dönüştürülmüş bir sürümden yeniden oluşturarak başarısız olur. Biraz çalışıyorlar, ancak temelde piksel düzeyinde yeniden oluşturmaya çalışmayan ortak gömme dediğimiz alternatif mimariler kadar iyi değiller. Eğitilmekte olan bir görüntünün, filmin veya doğal sinyalin soyut bir temsilini öğrenmeye çalışırlar, böylece bu soyut temsil alanında tahminlerde bulunabilirsiniz. Yann LeCun: Çokça kullandığım örnek, eğer bu odanın bir videosunu çekersem, kamerayı hareket ettirirsem ve burada durursam ve sonra sistemden bu filmin devamında ne olacağını tahmin etmesini istersem, bunun içinde insanların oturduğu bir oda olduğunu tahmin edebilir. Her birinizin neye benzeyeceğini tahmin edemez. Bu, filmin ilk görüntülerinden tamamen tahmin edilemez. Dünyada öngörülemeyen birçok şey var. Bir sistemi piksel düzeyinde tahminler yapacak şekilde eğitirseniz, tüm kaynaklarını icat edemeyeceği ayrıntıları anlamaya çalışarak harcayacaktır. Bu tam bir kaynak israfıdır. Her denediğimizde ve 20 yıldır bunun üzerinde çalışıyorum, videoları tahmin ederek kendi kendini denetleyen bir öğrenme eğitim sistemi kullanmak işe yaramıyor. Sadece sunum düzeyinde yapılırsa geçerlidir. Bu, bu şemaların üretken olmadığı anlamına gelir. Bill Dally: Temel olarak transformatörlerin bu yeteneğe sahip olmadığını söylüyorsanız, ancak insanların görüntü transformatörleri var ve harika sonuçlar alıyorlar. Yann LeCun: Bunu demek istemedim, çünkü bunun için bir transformatör kullanabilirsiniz. Transformatörleri bu mimarilere koyabilirsiniz. Sadece bahsettiğim mimari türüne ortak gömme tahmine dayalı mimari deniyor. Yani, bir film ya da görüntü ya da her neyse, onu bir kodlayıcıdan geçirin, bir temsil elde edersiniz ve sonra bu metnin, filmin veya görüntünün dönüştürülmüş versiyonunun sonraki kısımlarını alın ve ayrıca bir kodlayıcıdan geçirin, ve şimdi bu temsil alanında tahminler yapmaya çalışın, girdi alanında değil. Boşlukları doldurmak olan aynı eğitim yöntemini kullanabilirsiniz, ancak bunu orijinal temsilden ziyade bu gizli alanda yaparsınız. Yann LeCun: İşin zor yanı, eğer dikkatli olmazsanız ve akıllı bir teknoloji kullanmazsanız, sistem çökecektir. Girdiyi tamamen yok sayar, yalnızca sabit, var olmayan miktarda girdi bilgisi üretir.