Mô hình thế giới Meta V-JEPA 2 sử dụng video thô để đào tạo robot

Nguồn: roboticsbusinessreview

Tác giả: @SteveCrowe

Ngày đăng: 11/6/2025

Để đọc nội dung đầy đủ, vui lòng truy cập vào bài viết gốc.

Meta đã giới thiệu V-JEPA 2, một mô hình thế giới với 1,2 tỷ tham số được thiết kế để nâng cao khả năng hiểu biết, dự đoán và lập kế hoạch của robot bằng cách huấn luyện chủ yếu trên dữ liệu video thô. Được xây dựng trên Kiến trúc Dự đoán Nhúng Chung (JEPA), V-JEPA 2 trải qua quá trình huấn luyện hai giai đoạn: đầu tiên, học tự giám sát từ hơn một triệu giờ video và một triệu hình ảnh để nắm bắt các mẫu tương tác vật lý; thứ hai, học có điều kiện theo hành động sử dụng khoảng 62 giờ dữ liệu điều khiển robot nhằm tích hợp các hành động của tác nhân để dự đoán kết quả. Phương pháp này cho phép mô hình hỗ trợ lập kế hoạch và điều khiển vòng kín trong robot mà không cần đào tạo chuyên sâu theo từng lĩnh vực hay chú thích của con người. Trong các thử nghiệm thực tế tại phòng thí nghiệm của Meta, V-JEPA 2 đã thể hiện hiệu suất mạnh mẽ trong các nhiệm vụ robot phổ biến như nhặt và đặt, đạt tỷ lệ thành công từ 65% đến 80% trong các môi trường chưa từng thấy trước đó. Mô hình sử dụng các biểu diễn mục tiêu dựa trên thị giác, tạo ra các hành động ứng viên cho các nhiệm vụ đơn giản và sử dụng chuỗi các mục tiêu phụ trực quan cho các nhiệm vụ phức tạp hơn.

Thẻ

roboticsAIworld-modelsmachine-learningvision-based-controlrobotic-manipulationself-supervised-learning