Công nghệ ShengShu ra mắt mô hình đào tạo AI vật lý đa góc nhìn Vidar - The Robot Report

Nguồn: roboticsbusinessreview

Tác giả: @therobotreport

Ngày đăng: 8/8/2025

Để đọc nội dung đầy đủ, vui lòng truy cập vào bài viết gốc.

Công ty ShengShu Technology có trụ sở tại Bắc Kinh, được thành lập vào tháng 3 năm 2023, chuyên về các mô hình ngôn ngữ lớn đa phương thức, đã ra mắt Vidar, một mô hình đào tạo AI vật lý đa góc nhìn được thiết kế để thúc đẩy phát triển robot. Vidar, viết tắt của “video diffusion for action reasoning” (khuếch tán video để suy luận hành động), tận dụng sự kết hợp giữa dữ liệu đào tạo vật lý hạn chế và mô phỏng video sinh tạo để huấn luyện các mô hình AI có thân thể. Khác với các phương pháp truyền thống dựa nhiều vào việc thu thập dữ liệu vật lý tốn kém và phụ thuộc phần cứng hoặc các môi trường mô phỏng thuần túy thiếu sự biến đổi thực tế, Vidar tạo ra các môi trường đào tạo ảo đa góc nhìn sống động. Cách tiếp cận này cho phép đào tạo quy mô lớn, bền vững các tác nhân AI có khả năng thực hiện các nhiệm vụ trong thế giới thực, giảm nhu cầu về dữ liệu vật lý rộng rãi từ 1/80 đến 1/1.200 so với các mô hình hàng đầu trong ngành. Được xây dựng trên nền tảng tạo video chủ lực Vidu của ShengShu, Vidar sử dụng kiến trúc học tập hai giai đoạn mô-đun tách biệt giữa nhận thức cảm quan và điều khiển vận động. Ở giai đoạn đầu tiên, dữ liệu video tổng quát và có thân thể quy mô lớn được sử dụng để đào tạo khả năng nhận thức...

Thẻ

robotembodied-AIAI-training-modelsimulationgenerative-videorobotics-developmentphysical-AI