2025 год, 3 урока, которые меня научила робототехника @DrJimFan
1⃣️ Аппаратное обеспечение опережает программное обеспечение, но надежность аппаратных средств серьезно ограничивает скорость итераций программного обеспечения. Мы уже видели крайне изящные инженерные шедевры: Optimus, e-Atlas, Figure, Neo, G1 и другие. Но проблема в том, что наши лучшие ИИ еще далеко не исчерпали потенциал этих передовых аппаратных решений. Возможности (роботизированного) тела явно превосходят команды, которые сейчас может выдавать мозг. Однако для «обслуживания» этих роботов зачастую требуется целая команда по эксплуатации. Роботы не умеют самовосстанавливаться, как человек: перегрев, повреждение моторов, странные проблемы с прошивкой — это почти ежедневные кошмары. Ошибки, как только происходят, необратимы и не терпят ошибок. Единственное, что масштабируется — это мое терпение.
2⃣️ Стандартизация в области робототехники по-прежнему — эпическая катастрофа. В мире больших моделей все знают, что такое MMLU, SWE-Bench. Но в области робототехники отсутствует консенсус: какую аппаратную платформу использовать, как определять задачи, какие критерии оценки, какой симулятор — или сразу в реальный мир? По определению, каждый считает себя SOTA — потому что при каждом выпуске новости он временно вводит новый benchmark. Каждый выбирает из 100 неудач ту самую лучшую демонстрацию. К 2026 году наша область должна стать лучше, и больше нельзя считать воспроизводимость и научные стандарты второсортными.
3⃣️ Вариант VLA на базе VLM кажется мне неправильным. VLA — это Vision-Language-Action (визуально-языковая-двигательная) модель, которая сейчас является основным парадигмом для роботов. Решение очень простое: взять предварительно обученную VLM-модель, «подключить» к ней модуль действий. Но при этом сразу возникают вопросы. ВЛМ по сути — это модель, оптимизированная для выполнения задач вроде визуальных вопросов и ответов, что приводит к двум последствиям: большинство параметров VLM служат языку и знаниям, а не физическому миру; визуальный кодировщик активно обучается игнорировать низкоуровневые детали, потому что задачи типа Q&A требуют только высокого уровня понимания. Для робота же мелкие детали критически важны для точных и ловких операций. Поэтому производительность VLA не обязательно будет расти пропорционально размеру параметров VLM. Проблема в том, что цели предварительного обучения изначально не совпадают. #AI #Robtics
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
2025 год, 3 урока, которые меня научила робототехника @DrJimFan
1⃣️ Аппаратное обеспечение опережает программное обеспечение, но надежность аппаратных средств серьезно ограничивает скорость итераций программного обеспечения. Мы уже видели крайне изящные инженерные шедевры: Optimus, e-Atlas, Figure, Neo, G1 и другие. Но проблема в том, что наши лучшие ИИ еще далеко не исчерпали потенциал этих передовых аппаратных решений. Возможности (роботизированного) тела явно превосходят команды, которые сейчас может выдавать мозг. Однако для «обслуживания» этих роботов зачастую требуется целая команда по эксплуатации. Роботы не умеют самовосстанавливаться, как человек: перегрев, повреждение моторов, странные проблемы с прошивкой — это почти ежедневные кошмары. Ошибки, как только происходят, необратимы и не терпят ошибок. Единственное, что масштабируется — это мое терпение.
2⃣️ Стандартизация в области робототехники по-прежнему — эпическая катастрофа. В мире больших моделей все знают, что такое MMLU, SWE-Bench. Но в области робототехники отсутствует консенсус: какую аппаратную платформу использовать, как определять задачи, какие критерии оценки, какой симулятор — или сразу в реальный мир? По определению, каждый считает себя SOTA — потому что при каждом выпуске новости он временно вводит новый benchmark. Каждый выбирает из 100 неудач ту самую лучшую демонстрацию. К 2026 году наша область должна стать лучше, и больше нельзя считать воспроизводимость и научные стандарты второсортными.
3⃣️ Вариант VLA на базе VLM кажется мне неправильным. VLA — это Vision-Language-Action (визуально-языковая-двигательная) модель, которая сейчас является основным парадигмом для роботов. Решение очень простое: взять предварительно обученную VLM-модель, «подключить» к ней модуль действий. Но при этом сразу возникают вопросы. ВЛМ по сути — это модель, оптимизированная для выполнения задач вроде визуальных вопросов и ответов, что приводит к двум последствиям: большинство параметров VLM служат языку и знаниям, а не физическому миру; визуальный кодировщик активно обучается игнорировать низкоуровневые детали, потому что задачи типа Q&A требуют только высокого уровня понимания. Для робота же мелкие детали критически важны для точных и ловких операций. Поэтому производительность VLA не обязательно будет расти пропорционально размеру параметров VLM. Проблема в том, что цели предварительного обучения изначально не совпадают. #AI #Robtics