3 hal yang diajarkan bidang robotika kepada saya pada tahun 2025 @DrJimFan
1⃣Perangkat keras berada di depan perangkat lunak, tetapi keandalan perangkat keras sangat membatasi iterasi perangkat lunak Kami telah melihat beberapa mahakarya teknik yang paling indah: Optimus, e-Atlas, Figure, Neo, G1, dan banyak lagi. Tetapi masalahnya adalah AI terbaik kita jauh dari memeras potensi perangkat keras mutakhir ini. Kemampuan tubuh (robot) secara signifikan lebih kuat daripada instruksi yang saat ini dapat dikirim oleh otak. Namun, untuk "melayani" robot-robot ini, seluruh tim operasi dan pemeliharaan sering diperlukan. Robot tidak menyembuhkan diri mereka sendiri seperti manusia: panas berlebih, motor rusak, masalah firmware aneh, mimpi buruk hampir setiap hari. Begitu kesalahan terjadi, itu tidak dapat diubah dan tidak toleran. Satu-satunya hal yang benar-benar membuat saya berskala adalah kesabaran saya.
2⃣Benchmarking di bidang robotika masih merupakan bencana epik Di dunia model besar, semua orang tahu tentang apa itu MMLU dan SWE-Bench. Tetapi tidak ada konsensus di bidang robotika: platform perangkat keras apa yang digunakan, bagaimana menentukan tugas, apa kriteria penilaian, simulator mana yang digunakan, atau langsung ke dunia nyata? Menurut definisi, setiap orang adalah SOTA - karena setiap kali berita diterbitkan, tolok ukur baru ditentukan untuk sementara. Setiap orang akan memilih demo terbaik dari 100 kegagalan. Pada tahun 2026, bidang kita harus melakukan yang lebih baik dan tidak lagi memperlakukan reproduktifitas dan norma ilmiah sebagai warga negara kelas dua.
3⃣Rute VLA berdasarkan VLM selalu terasa tidak terlalu tepat. VLA mengacu pada model Vision-Language-Action, yang saat ini menjadi paradigma arus utama otak robot. Resepnya juga sederhana: ambil pos pemeriksaan VLM yang telah dilatih sebelumnya dan "cangkokkan" modul tindakan di atasnya. Tetapi jika Anda memikirkannya, Anda akan menemukan masalah. VLM pada dasarnya sangat dioptimalkan untuk mendaki tolok ukur seperti jawaban pertanyaan visual, yang memiliki dua konsekuensi langsung: sebagian besar parameter VLM melayani bahasa dan pengetahuan, bukan dunia fisik; Encoder visi secara aktif dilatih untuk membuang detail tingkat rendah karena tugas menjawab pertanyaan hanya memerlukan pemahaman tingkat tinggi, tetapi untuk robot, detail kecil sangat penting untuk pengoperasian yang cekatan. Oleh karena itu, tidak ada alasan bagi kinerja VLA untuk meningkat secara linier seiring dengan meningkatnya ukuran parameter VLM. Masalahnya adalah tujuan pra-pelatihan itu sendiri tidak selaras. #AI #Robtik
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
3 hal yang diajarkan bidang robotika kepada saya pada tahun 2025 @DrJimFan
1⃣Perangkat keras berada di depan perangkat lunak, tetapi keandalan perangkat keras sangat membatasi iterasi perangkat lunak Kami telah melihat beberapa mahakarya teknik yang paling indah: Optimus, e-Atlas, Figure, Neo, G1, dan banyak lagi. Tetapi masalahnya adalah AI terbaik kita jauh dari memeras potensi perangkat keras mutakhir ini. Kemampuan tubuh (robot) secara signifikan lebih kuat daripada instruksi yang saat ini dapat dikirim oleh otak. Namun, untuk "melayani" robot-robot ini, seluruh tim operasi dan pemeliharaan sering diperlukan. Robot tidak menyembuhkan diri mereka sendiri seperti manusia: panas berlebih, motor rusak, masalah firmware aneh, mimpi buruk hampir setiap hari. Begitu kesalahan terjadi, itu tidak dapat diubah dan tidak toleran. Satu-satunya hal yang benar-benar membuat saya berskala adalah kesabaran saya.
2⃣Benchmarking di bidang robotika masih merupakan bencana epik Di dunia model besar, semua orang tahu tentang apa itu MMLU dan SWE-Bench. Tetapi tidak ada konsensus di bidang robotika: platform perangkat keras apa yang digunakan, bagaimana menentukan tugas, apa kriteria penilaian, simulator mana yang digunakan, atau langsung ke dunia nyata? Menurut definisi, setiap orang adalah SOTA - karena setiap kali berita diterbitkan, tolok ukur baru ditentukan untuk sementara. Setiap orang akan memilih demo terbaik dari 100 kegagalan. Pada tahun 2026, bidang kita harus melakukan yang lebih baik dan tidak lagi memperlakukan reproduktifitas dan norma ilmiah sebagai warga negara kelas dua.
3⃣Rute VLA berdasarkan VLM selalu terasa tidak terlalu tepat. VLA mengacu pada model Vision-Language-Action, yang saat ini menjadi paradigma arus utama otak robot. Resepnya juga sederhana: ambil pos pemeriksaan VLM yang telah dilatih sebelumnya dan "cangkokkan" modul tindakan di atasnya. Tetapi jika Anda memikirkannya, Anda akan menemukan masalah. VLM pada dasarnya sangat dioptimalkan untuk mendaki tolok ukur seperti jawaban pertanyaan visual, yang memiliki dua konsekuensi langsung: sebagian besar parameter VLM melayani bahasa dan pengetahuan, bukan dunia fisik; Encoder visi secara aktif dilatih untuk membuang detail tingkat rendah karena tugas menjawab pertanyaan hanya memerlukan pemahaman tingkat tinggi, tetapi untuk robot, detail kecil sangat penting untuk pengoperasian yang cekatan. Oleh karena itu, tidak ada alasan bagi kinerja VLA untuk meningkat secara linier seiring dengan meningkatnya ukuran parameter VLM. Masalahnya adalah tujuan pra-pelatihan itu sendiri tidak selaras. #AI #Robtik