
Екипът на университета Zhejiang създава система за визуално разсъждение, която позволява на роботите да „мислят с очите си“ — 22 пъти по-бързо от текста
Изследователи от университета Zhejiang, в сътрудничество с университета Корнел, Националния университет на Сингапур и университета Сидиан, разработиха революционна система за визуално разсъждение, която позволява на роботите да "мислят с техните очи" вместо да обработва базирани на език вътрешни монолози. Системата, наречена VisualThink-VLA, постига 22,8x подобрение на скоростта в сравнение с текстово-базираните подходи за разсъждение, като същевременно осигурява по-висока точност.
Фундаменталното прозрение зад VisualThink-VLA е, че традиционните модели Vision-Language-Action (VLA) разчитат на базирано на текст мислено мислене, където роботът по същество пише вътрешно есе, описващо всяка стъпка, преди да действа. Този процес отнема средно 8,377 секунди на стъпка – болезнено бавно за задачи за манипулиране в реално време. VisualThink-VLA заменя текстовите токени с визуални логически токени, намалявайки времето за обработка до само 0,367 секунди на стъпка.
Системата използва четириканална архитектура за визуално доказателство, включваща канали Bounding Box, Edge, Motion и Relation. Вместо да използва всичките четири канала безразборно, VisualThink-VLA разполага с адаптивен механизъм за маршрутизиране, който избира средно само 2,22 канала на стъпка, оптимизирайки баланса между изчислителната ефективност и качеството на разсъжденията.
Тестването на осем бенчмарка даде среден процент на успеваемост от 92,63 процента, надминавайки базирания на текст ECoT подход, който постигна 85,09 процента. Предимството в скоростта е още по-изразено: 22,8 пъти по-бързо, като същевременно е по-точно — рядка комбинация в системите с изкуствен интелект, където скоростта и качеството обикновено се разменят едно срещу друго.
Изследователите валидираха системата на роботизирана ръка със 7 степени на свобода на PIPER NERO, демонстрирайки успех при операции за вземане и поставяне на множество обекти, чувствително към релации разположение, където пространствените отношения на обектите имат значение, чувствителна към контакт преориентация и двуетапни сложни задачи, които изискват последователно разсъждение. Данните от обучението, дублирани "VisualEvidence-Set," съдържа 754 700 инструкции, покриващи различни сценарии за манипулиране.
Ключово предимство на дизайна е, че VisualThink-VLA работи като plug-and-play модул за съществуващи VLA системи. Това означава, че роботите, които понастоящем използват текстови разсъждения, могат да бъдат надградени, без да се замени изцяло основната им архитектура. Документът е достъпен в arXiv под идентификатор 2605.30011.
Работата представлява промяна на парадигмата от "напишете есе и тогава действайте" към "виж-мисли-действай," приближаване на разсъжденията на робота до начина, по който хората работят естествено – директно обработване на визуална информация, вместо да я превежда чрез език. Тъй като роботите се внедряват във все по-динамични среди, способността да разсъждават визуално с почти мигновени скорости може да бъде критичен фактор за широкото им приемане.
