2025-12-29 10:39:00

2025年，机器人领域教给我的3件事 @DrJimFan

1⃣️El hardware va por delante del software, pero la fiabilidad del hardware limita gravemente la velocidad de iteración del software. Ya hemos visto obras maestras de ingeniería extremadamente ingeniosas: Optimus, e-Atlas, Figure, Neo, G1, etc. Pero el problema es que nuestra mejor IA aún no ha explotado todo el potencial de estos hardware de vanguardia. La capacidad del cuerpo (del robot), claramente supera las instrucciones que puede emitir el cerebro en la actualidad. Sin embargo, para “servir” a estos robots, a menudo se necesita un equipo completo de operaciones y mantenimiento. Los robots no se autoreparan como los humanos: sobrecalentamiento, fallos en los motores, problemas extraños en el firmware, casi un pesadilla diaria. Una vez que ocurre un error, es irreversible y no tolerante. Lo que realmente se escala, es mi paciencia.

2⃣️La prueba de referencia en el campo de los robots sigue siendo una catástrofe épica. En el mundo de los modelos grandes, todos saben qué es MMLU, SWE-Bench. Pero en el campo de los robots no hay consenso: ¿qué hardware usar, cómo definir las tareas, cuáles son los estándares de puntuación, qué simulador usar, o directamente en el mundo real? Por definición, todos son SOTA — porque cada vez que se publica una noticia, se define un nuevo benchmark de forma provisional. Cada uno selecciona el mejor demo entre 100 fracasos. Para 2026, nuestro campo debe hacerlo mejor, no podemos seguir considerando la reproducibilidad y las normas científicas como ciudadanos de segunda clase.

3⃣️La ruta VLA basada en VLM, siempre me parece un poco equivocada. VLA se refiere a Vision-Language-Action (visión-lenguaje-acción), que actualmente es el paradigma principal del cerebro de los robots. La fórmula también es muy simple: tomar un checkpoint de VLM preentrenado, y “acoplar” un módulo de acción encima. Pero al pensarlo detenidamente, se ven los problemas. VLM está esencialmente optimizado para escalar en benchmarks como preguntas y respuestas visuales, lo que trae dos consecuencias: la mayoría de los parámetros de VLM sirven para el lenguaje y el conocimiento, no para el mundo físico; el codificador visual se entrena activamente para descartar detalles de bajo nivel, porque las tareas de preguntas y respuestas solo requieren comprensión de alto nivel, pero para los robots, los detalles minúsculos son cruciales para operaciones hábiles. Por lo tanto, no hay razón para que el rendimiento de VLA aumente linealmente con el tamaño de los parámetros de VLM. El problema radica en que los objetivos de preentrenamiento no están alineados en sí mismos. #AI #Robtics

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.