3 điều lĩnh vực robot đã dạy tôi vào năm 2025 @DrJimFan



1⃣Phần cứng đi trước phần mềm, nhưng độ tin cậy của phần cứng hạn chế nghiêm trọng các lần lặp lại phần mềm Chúng ta đã thấy một số kiệt tác kỹ thuật tinh tế nhất: Optimus, e-Atlas, Figure, Neo, G1, v.v. Nhưng vấn đề là AI tốt nhất của chúng ta còn lâu mới khai thác được tiềm năng của phần cứng tiên tiến này. Khả năng của cơ thể (robot) mạnh hơn đáng kể so với các hướng dẫn mà bộ não hiện có thể gửi. Tuy nhiên, để "phục vụ" những robot này, thường cần cả một đội ngũ vận hành và bảo trì. Robot không tự chữa lành như con người: quá nóng, động cơ bị hỏng, các vấn đề về phần sụn kỳ lạ, hầu như những cơn ác mộng hàng ngày. Một khi sai lầm xảy ra, nó là không thể đảo ngược và không khoan dung. Điều duy nhất thực sự khiến tôi cân nhắc là sự kiên nhẫn của tôi.

2⃣Điểm chuẩn trong lĩnh vực robot vẫn là một thảm họa hoành tráng Trong thế giới của các mô hình lớn, mọi người đều biết MMLU và SWE-Bench là gì. Nhưng không có sự đồng thuận trong lĩnh vực robot: sử dụng nền tảng phần cứng nào, xác định nhiệm vụ như thế nào, tiêu chí chấm điểm là gì, sử dụng trình mô phỏng nào hay trực tiếp vào thế giới thực? Theo định nghĩa, mọi người đều là SOTA - bởi vì mỗi khi một tin tức được xuất bản, một tiêu chuẩn mới tạm thời được xác định. Mọi người sẽ chọn ra bản demo tốt nhất từ 100 thất bại. Đến năm 2026, lĩnh vực của chúng ta phải làm tốt hơn và không còn coi khả năng tái tạo và các chuẩn mực khoa học là công dân hạng hai.

3⃣Lộ trình VLA dựa trên VLM luôn cảm thấy không đúng lắm. VLA đề cập đến mô hình Vision-Language-Action, hiện đang là mô hình chủ đạo của bộ não robot. Công thức cũng rất đơn giản: lấy một điểm kiểm tra VLM được đào tạo trước và "ghép" một mô-đun hành động trên đó. Nhưng nếu bạn nghĩ về nó, bạn sẽ tìm thấy một vấn đề. VLM về cơ bản được tối ưu hóa cao để leo lên các điểm chuẩn như trả lời câu hỏi trực quan, có hai hậu quả trực tiếp: hầu hết các tham số của VLM phục vụ ngôn ngữ và kiến thức, không phải thế giới vật lý; Bộ mã hóa thị giác được đào tạo tích cực để loại bỏ các chi tiết cấp thấp vì các nhiệm vụ trả lời câu hỏi chỉ yêu cầu hiểu biết cấp cao, nhưng đối với robot, các chi tiết nhỏ là rất quan trọng để vận hành khéo léo. Do đó, không có lý do gì để hiệu suất VLA tăng tuyến tính khi kích thước của các tham số VLM tăng lên. Vấn đề là bản thân các mục tiêu trước khi đào tạo không phù hợp. #AI #Robtics
Xem bản gốc
post-image
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
0/400
Không có bình luận
  • Gate Fun hot

    Xem thêm
  • Vốn hóa:$3.57KNgười nắm giữ:2
    0.00%
  • Vốn hóa:$3.54KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$3.53KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$3.54KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$4.48KNgười nắm giữ:63
    0.29%
  • Ghim