Екипът на Qwen пусна във вторник пакет за роботика, включващ три основни модела: Qwen-RobotNav, Qwen-RobotManip и Qwen-RobotWorld. Тези три модела привеждат езика в съответствие с различни видове физически действия.

Qwen-RobotNav разширява възможностите на визуалния език в мобилната роботика чрез контролируемо кодиране на наблюдение и базирани на инструменти интерфейси. Моделът обединява четири ключови задачи в една рамка: следване на инструкции, насочена към целта навигация, проследяване на целта и автономно шофиране.

Qwen-RobotManip стандартизира пространството състояние-действие и представя движението на крайния ефектор като инкрементални пози в координатната система на камерата. Обучен на повече от 38 100 часа данни с напълно отворен код, моделът поддържа широкомащабно обучение в множество роботизирани платформи, позволявайки широк спектър от възможности за манипулиране.

Междувременно Qwen-RobotWorld служи като световен модел с общо предназначение, който свързва разбирането на визуален език с прогнозиране на бъдещо състояние чрез интерфейс за действие на естествен език. Моделът може да прогнозира физически последователни бъдещи резултати в сценарии за навигация, шофиране и манипулиране, позволявайки на единен световен модел да обобщава различни въплътени AI задачи. [TechNode Reporting]

Alibaba разкрива серия Qwen-Robot с три основни модела за въплътен AI · TechNode

Свързани

Like this:

Alibaba разкрива серия Qwen-Robot с три основни модела за въплътен AI · TechNode

Свързани

Share this:

Like this: