3 coisas que a área da robótica me ensinou em 2025 @DrJimFan



1⃣O hardware está à frente do software, mas a fiabilidade do hardware limita severamente as iterações do software. Já vimos algumas das obras-primas de engenharia mais requintadas: Optimus, e-Atlas, Figure, Neo, G1 e muitos mais. Mas o problema é que a nossa melhor IA está longe de extrair o potencial deste hardware de ponta. A capacidade do corpo (robótico) é significativamente mais forte do que as instruções que o cérebro pode atualmente enviar. No entanto, para "servir" estes robôs, é frequentemente necessária uma equipa inteira de operação e manutenção. Os robôs não se curam como os humanos: sobreaquecimento, motores avariados, problemas estranhos de firmware, pesadelos quase todos os dias. Quando ocorre um erro, torna-se irreversível e intolerante. A única coisa que realmente me escalou foi a minha paciência.

2⃣O benchmarking no campo da robótica continua a ser um desastre épico. No mundo dos grandes modelos, toda a gente sabe do que se trata o MMLU e o SWE-Bench. Mas não há consenso no campo da robótica: que plataforma de hardware usar, como definir a tarefa, quais são os critérios de pontuação, que simulador usar, ou diretamente para o mundo real? Por definição, todos são SOTA – porque cada vez que uma notícia é publicada, um novo marco é temporariamente definido. Toda a gente vai escolher a melhor demo entre 100 falhas. Até 2026, a nossa área terá de melhorar e deixar de tratar a reprodutibilidade e as normas científicas como cidadãos de segunda classe.

3⃣A via do VLA baseada no VLM nunca me parece muito correta. VLA refere-se ao modelo Visão-Linguagem-Ação, que é atualmente o paradigma principal dos cérebros robóticos. A receita também é simples: pegar num ponto de controlo VLM pré-treinado e "enxertar" um módulo de ação nele. Mas se pensares bem, vais encontrar um problema. O VLM é essencialmente altamente otimizado para subir benchmarks como a resposta visual a perguntas, o que tem duas consequências diretas: a maioria dos parâmetros do VLM serve a linguagem e o conhecimento, não o mundo físico; Os codificadores de visão são ativamente treinados para descartar detalhes de baixo nível porque as tarefas de resposta a perguntas só exigem compreensão de alto nível, mas para os robôs, pequenos detalhes são cruciais para uma operação ágil. Portanto, não há razão para o desempenho do VLA aumentar linearmente à medida que o tamanho dos parâmetros do VLM aumenta. O problema é que os objetivos pré-treino em si não estão alinhados. #AI #Robtics
Ver original
post-image
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • بالعربية
  • Português (Brasil)
  • 简体中文
  • English
  • Español
  • Français (Afrique)
  • Bahasa Indonesia
  • 日本語
  • Português (Portugal)
  • Русский
  • 繁體中文
  • Українська
  • Tiếng Việt