Gemini Robotics 1.5 cho phép trải nghiệm tác nhân, giải thích bởi Google DeepMind - The Robot Report

Nguồn: roboticsbusinessreview

Tác giả: @therobotreport

Ngày đăng: 26/9/2025

Để đọc nội dung đầy đủ, vui lòng truy cập vào bài viết gốc.

Google DeepMind đã giới thiệu hai mô hình tiên tiến, Gemini Robotics 1.5 và Gemini Robotics-ER 1.5, nhằm nâng cao khả năng của robot hướng tới trí tuệ nhân tạo tổng quát (AGI) trong môi trường vật lý. Gemini Robotics 1.5 là một mô hình thị giác-ngôn ngữ-hành động (VLA) chuyển đổi các đầu vào hình ảnh và hướng dẫn thành các lệnh điều khiển động cơ, cho phép robot thực hiện các nhiệm vụ phức tạp với khả năng lý giải minh bạch bằng cách suy nghĩ trước khi hành động. Mô hình này cũng hỗ trợ học tập trên các dạng robot khác nhau, tăng tốc độ tiếp thu kỹ năng. Gemini Robotics-ER 1.5, một mô hình thị giác-ngôn ngữ (VLM), nổi bật trong việc hiểu không gian, suy luận về thế giới vật lý, lập kế hoạch các nhiệm vụ đa bước và gọi trực tiếp các công cụ kỹ thuật số như Google Search. Mô hình này được các nhà phát triển tiếp cận qua Gemini API trong Google AI Studio, trong khi Gemini Robotics 1.5 được cung cấp cho một số đối tác chọn lọc. Cùng nhau, các mô hình này tạo thành một khung tác nhân, trong đó Gemini Robotics-ER 1.5 hoạt động như một nhà hoạch định cấp cao điều phối các hoạt động của robot, và Gemini Robotics

Thẻ

roboticsartificial-intelligenceGoogle-DeepMindGemini-Roboticsvision-language-modelsagentic-systemsrobot-planning