Екипът на Qwen пусна във вторник пакет за роботика, включващ три основни модела: Qwen-RobotNav, Qwen-RobotManip и Qwen-RobotWorld. Тези три модела привеждат езика в съответствие с различни видове физически действия.
Qwen-RobotNav разширява възможностите на визуалния език в мобилната роботика чрез контролируемо кодиране на наблюдение и базирани на инструменти интерфейси. Моделът обединява четири ключови задачи в една рамка: следване на инструкции, насочена към целта навигация, проследяване на целта и автономно шофиране.
Qwen-RobotManip стандартизира пространството състояние-действие и представя движението на крайния ефектор като инкрементални пози в координатната система на камерата. Обучен на повече от 38 100 часа данни с напълно отворен код, моделът поддържа широкомащабно обучение в множество роботизирани платформи, позволявайки широк спектър от възможности за манипулиране.
Междувременно Qwen-RobotWorld служи като световен модел с общо предназначение, който свързва разбирането на визуален език с прогнозиране на бъдещо състояние чрез интерфейс за действие на естествен език. Моделът може да прогнозира физически последователни бъдещи резултати в сценарии за навигация, шофиране и манипулиране, позволявайки на единен световен модел да обобщава различни въплътени AI задачи. [TechNode Reporting]
Свързани
