Mô hình Gemini của Google cho phép robot hình người thực hiện các nhiệm vụ đa phương thức

Nguồn: interestingengineering

Tác giả: @IntEngineering

Ngày đăng: 30/9/2025

Để đọc nội dung đầy đủ, vui lòng truy cập vào bài viết gốc.

Google DeepMind đã công bố những tiến bộ trong các robot hình người được trang bị mô hình AI Gemini Robotics 1.5, cho phép chúng thực hiện các nhiệm vụ phức tạp, nhiều bước thông qua khả năng suy luận đa phương thức. Trong một video gần đây, robot Franka hai cánh tay đã thành công hoàn thành "bài kiểm tra chuối," phân loại các loại trái cây khác nhau theo màu sắc vào các đĩa riêng biệt, thể hiện khả năng cải tiến so với các mẫu trước đây chỉ có thể thực hiện các lệnh một bước. Một bài kiểm tra khác giới thiệu robot hình người Apollo của Apptronik phân loại quần áo theo màu sắc, thậm chí thích ứng với sự thay đổi vị trí giỏ đồ giữa chừng, làm nổi bật khả năng nhận thức và thích nghi nâng cao của robot. Gia đình Gemini Robotics 1.5 bao gồm hai mô hình bổ trợ lẫn nhau: một mô hình chuyển đổi các đầu vào hình ảnh và hướng dẫn thành hành động, và một mô hình khác suy luận về môi trường để tạo ra kế hoạch từng bước. Khung tác nhân này cho phép robot tự động nghiên cứu môi trường xung quanh, đưa ra quyết định và thực hiện các nhiệm vụ như phân loại rác thải theo quy định tái chế địa phương bằng cách nghiên cứu hướng dẫn trực tuyến và áp dụng chúng trong thời gian thực. Google nhấn mạnh yếu tố an toàn trong các mô hình này, tích hợp đánh giá rủi ro.

Thẻ

roboticshumanoid-robotsAI-modelsmultimodal-tasksautonomous-robotsrobot-perceptionrobot-reasoning