Изследователски екип от университета Цинхуа, в сътрудничество с Tencent Hunyuan, разработи GUICrafter — GUI агент, който съперничи на най-добрите индустриални модели, използвайки само малка част от данните за обучение и нулева ръчна анотация. Статията, публикувана като arXiv:2606.29705 през юни 2026 г., представя фундаментално различен подход към обучението на агенти за компютърен контрол с ИИ.

Обучението на GUI агенти обикновено изисква огромно количество анотирани от хора траектории на операции. Съобщава се, че лидерът в индустрията, моделът CUA, разчита на до 18,4 милиона анотирани траектории – усилие за събиране на данни, което е практически невъзпроизводимо за повечето изследователски екипи. GUICrafter заобикаля изцяло това тясно място, като използва сигналите за взаимодействие, които вече присъстват в уеб страниците и интерфейсите на мобилни приложения.

Екипът изгради система, която автоматично обхожда реални уебсайтове, рекурсивно следвайки връзки, за да изгради дървовидно структуриран набор от данни от уеб страници. За всяка страница инструментите на браузъра идентифицират кои елементи могат да се кликват, редактират или избират. Този процес даде 500 000 слабо контролирани уеб проби и 136 000 мобилни проби – всички без никаква човешка анотация.

За да преодолее празнината между необработените сигнали за взаимодействие и семантичното разбиране, екипът изобрети концепцията за „метазадачи“. Вместо хиляди конкретни описания на задачи като „търсене на обувки за бягане“, мета-задачите използват една обща инструкция: „Щракнете върху която и да е област на страницата, върху която можете да щракнете, като бутон, но не щракнете върху празно място.“ Тази на пръв поглед проста абстракция учи AI на основното умение за визуална локализация.

Обучението се провежда по двустепенна учебна програма. Първият етап използва слабо наблюдение и обучение за подсилване с функция за възнаграждение по Гаус, която възнаграждава прецизното щракване близо до центъра на интерактивните елементи. Вторият етап прецизира с малък набор от висококачествени анотирани данни — само 6795 уеб проби и 3200 мобилни проби. Резултатът е система, която постига конкурентна или превъзходна производителност, използвайки приблизително 0,1% от разходите за анотации на водещи алтернативи.

Source link

Университетът Цинхуа обучава първокласен агент за компютърен контрол, използвайки масивни безплатни екранни снимки

Like this:

Университетът Цинхуа обучава първокласен агент за компютърен контрол, използвайки масивни безплатни екранни снимки

Share this:

Like this: