
X-Square Robot, китайската компания за изкуствен интелект, която стои зад серията роботизирани фундаментални модели GreatWall, представи WALL-WM — първият в света световен модел за прогнозиране на ниво събитие за въплътен интелект. Пробивът измества единицата за прогнозиране на световните модели от фиксирани времеви рамки към семантични събития, променяйки фундаментално начина, по който роботите разбират и изпълняват физически задачи.
Конвенционалните модели визия-език-действие работят чрез предсказване на парчета действие с фиксирана дължина кадър по кадър – прогнозиране къде ще бъде ръката на робот на 0,1 секунди, 0,2 секунди и т.н. Този подход принуждава модела да запомня "колко милиметра се движи пръстът на кадър" вместо разбиране на действителната цел: "хванете чашата." Резултатът е крехко обобщение – сменете чашата, сменете масата, променете времето и моделът се проваля. WALL-WM заменя това с прогнозиране, ориентирано към събития. Вместо да пита какво се случва през следващите 0,1 секунди, моделът директно си представя целевото състояние – момента на хващане – и синхронно генерира последователността от действия, необходими за достигането му. Тъй като събитията по своята същност са кръстосани сценарии, кръстосани обектни семантични абстракции, WALL-WM демонстрира значително по-стабилна кръстосана сценична генерализация.
Документът, озаглавен "WALL-WM: Моделиране на световно действие на карвинг в ставите на събитието," идентифицира фундаментално архитектурно предизвикателство във въплътения AI: модалностите на текста, визията и действието работят на различни геометрии и времеви мащаби. Текстът е семантично намерение на високо ниво с ниска ентропия; зрението е непрекъснато развиващо се високоизмерно наблюдение; действието е физически ограничено и чувствително към състоянията на контакта, точността на времето и незначителните смущения. Директното проектиране на трите в споделено латентно пространство кара предварително обучените представяния да се отклоняват от техните оригинални геометрични предшестващи стойности.
Решението на X-Square Robot използва трислойна архитектура: слой за въвеждане на инструкции за събития, основен слой за предсказване на събития, използващ разпределена мюонна оптимизация (DMuon) за подобрена стабилност на конвергенцията и стратегия за пакетиране на множество събития, която обучава множество събития в рамките на една дълга последователност, за да намали загубата на изчисления. При тестове за генериране на вградено видео, WALL-WM превъзхожда модели, включително Wan2.1-14B и Open-Sora 2.0, по показатели за качество на движение, семантична последователност и физическа правдоподобност. В бенчмарка на робота Core15 L1 той постига значително по-високи резултати за изпълнение на задачи от Pi0.5 и DreamZero при основни задачи, задачи за разсъждение, сръчни манипулации и сценарии за обобщение, което го прави един от най-ефективните L1 модели при настройки на абстрактни инструкции.
