2025年, робототехніки навчили мене 3 речі @DrJimFan
1⃣️ Апаратура йде попереду програмного забезпечення, але надійність апаратури серйозно обмежує швидкість ітерацій програмного забезпечення. Ми вже бачили надзвичайно витончені інженерні шедеври: Optimus, e-Atlas, Figure, Neo, G1 тощо. Але проблема в тому, що наші найкращі ШІ ще далекі від того, щоб максимально використати потенціал цих передових апаратних засобів. Можливості (роботизованого) тіла явно переважають команди команд, які може видавати мозок наразі. Однак, щоб «обслуговувати» цих роботів, зазвичай потрібна ціла команда з обслуговування та ремонту. Роботи не здатні самостійно відновлюватися, як люди: перегрів, пошкодження мотора, дивні проблеми з прошивкою — це майже щоденні кошмари. Помилка, що сталася, є незворотною і не терпить помилок. Єдине, що справді масштабується — це моя терплячість.
2⃣️ Базові тести у сфері робототехніки залишаються епічною катастрофою. У світі великих моделей всі знають, що таке MMLU, SWE-Bench. Але у сфері робототехніки немає єдності: яку апаратну платформу використовувати, як визначати завдання, які критерії оцінки, який симулятор — чи одразу в реальному світі? За визначенням, кожен є SOTA — бо кожного разу, коли виходить новина, тимчасово визначають новий benchmark. Кожен з них вибирає найкращу демонстрацію з 100 невдач. До 2026 року наша сфера має зробити крок вперед і перестати ставитися до відтворюваності та наукових стандартів як до другорядних.
3⃣️ Стратегія VLA на основі VLM здається неправильною. VLA означає Vision-Language-Action (зір-мовлення-дія), і наразі це основна парадигма для роботів. Рецепт дуже простий: взяти попередньо натренований VLM checkpoint і «пришити» до нього модуль дії. Але якщо подумати глибше, виникають питання. VLM за своєю природою оптимізований для проходження таких benchmarkів, як візуальні питання та відповіді, що має два наслідки: більшість параметрів VLM орієнтовані на мову та знання, а не на фізичний світ; візуальний кодер навмисно тренується ігнорувати низькорівневі деталі, оскільки завдання питань і відповідей вимагає лише високорівневого розуміння. Для робота ж дрібні деталі мають вирішальне значення для точних маніпуляцій. Тому продуктивність VLA не обов’язково зростає пропорційно до масштабу параметрів VLM. Проблема у тому, що ціль попереднього тренування сама по собі не узгоджена. #AI #Robtics
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
2025年, робототехніки навчили мене 3 речі @DrJimFan
1⃣️ Апаратура йде попереду програмного забезпечення, але надійність апаратури серйозно обмежує швидкість ітерацій програмного забезпечення. Ми вже бачили надзвичайно витончені інженерні шедеври: Optimus, e-Atlas, Figure, Neo, G1 тощо. Але проблема в тому, що наші найкращі ШІ ще далекі від того, щоб максимально використати потенціал цих передових апаратних засобів. Можливості (роботизованого) тіла явно переважають команди команд, які може видавати мозок наразі. Однак, щоб «обслуговувати» цих роботів, зазвичай потрібна ціла команда з обслуговування та ремонту. Роботи не здатні самостійно відновлюватися, як люди: перегрів, пошкодження мотора, дивні проблеми з прошивкою — це майже щоденні кошмари. Помилка, що сталася, є незворотною і не терпить помилок. Єдине, що справді масштабується — це моя терплячість.
2⃣️ Базові тести у сфері робототехніки залишаються епічною катастрофою. У світі великих моделей всі знають, що таке MMLU, SWE-Bench. Але у сфері робототехніки немає єдності: яку апаратну платформу використовувати, як визначати завдання, які критерії оцінки, який симулятор — чи одразу в реальному світі? За визначенням, кожен є SOTA — бо кожного разу, коли виходить новина, тимчасово визначають новий benchmark. Кожен з них вибирає найкращу демонстрацію з 100 невдач. До 2026 року наша сфера має зробити крок вперед і перестати ставитися до відтворюваності та наукових стандартів як до другорядних.
3⃣️ Стратегія VLA на основі VLM здається неправильною. VLA означає Vision-Language-Action (зір-мовлення-дія), і наразі це основна парадигма для роботів. Рецепт дуже простий: взяти попередньо натренований VLM checkpoint і «пришити» до нього модуль дії. Але якщо подумати глибше, виникають питання. VLM за своєю природою оптимізований для проходження таких benchmarkів, як візуальні питання та відповіді, що має два наслідки: більшість параметрів VLM орієнтовані на мову та знання, а не на фізичний світ; візуальний кодер навмисно тренується ігнорувати низькорівневі деталі, оскільки завдання питань і відповідей вимагає лише високорівневого розуміння. Для робота ж дрібні деталі мають вирішальне значення для точних маніпуляцій. Тому продуктивність VLA не обов’язково зростає пропорційно до масштабу параметрів VLM. Проблема у тому, що ціль попереднього тренування сама по собі не узгоджена. #AI #Robtics