Съвместен изследователски документ от университета Цинхуа и Alibaba представи ViT³ (Vision Test-Time Training), нова архитектура на трансформатор на зрението, която постига линейна изчислителна сложност – фундаментален напредък в компютърното зрение, който може да направи разбирането на изображения с висока разделителна способност практично на крайни устройства. Докладът беше представен като устен на CVPR 2026, едно от най-престижните места за компютърно зрение.

Основната иновация се крие в повторното тълкуване на механизма на вниманието през призмата на обучението по време на тест (TTT). Традиционните визуални трансформатори страдат от квадратична изчислителна сложност – с увеличаването на разделителната способност на изображението, изчислителната цена нараства квадратично. Това ограничи практическото им използване на крайни устройства с ограничени изчислителни бюджети.

ViT³ преосмисля вниманието като онлайн процес на обучение. По време на извод моделът изгражда олекотен вътрешен модел от двойки ключ-стойност и използва градиентно спускане, за да актуализира този вътрешен модел в реално време. Този подход позволява на системата да компресира информация от ключове и стойности в малък вътрешен модел – подобно на начина, по който дълбокото обучение компресира данните в тегла на модела – позволявайки линейна, а не квадратична сложност.

Изследователите, ръководени от докторант Хан Донгчен от университета Цинхуа и ръководени от доцент Гао Хуанг, установиха шест принципа на проектиране за високоточни и ефективни модели на визуализация TTT чрез систематично експериментиране:

Ключовите констатации включват: Плавната загуба на L1 превъзхожда MAE за вътрешната функция за загуба на обучение; единична пълна партида градиентно спускане работи най-добре за зрителни задачи; сравнително висока вътрешна скорост на обучение (1,0) е оптимална; по-широките вътрешни модели последователно подобряват производителността; по-дълбоките вътрешни модели се сблъскват с трудности при оптимизиране поради характера на метаобучението на TTT; и конволюционните архитектури са много подходящи като вътрешни модели за визуални задачи.

Въз основа на тези принципи, ViT³ използва единичен пълен пакет градиентно спускане със скорост на обучение 1,0, загуба на точков продукт, опростено SwiGLU активиране и Depthwise конволюция като вътрешен модел. Архитектурата постига конкурентни резултати при задачите за класифициране на изображения, откриване на обекти, сегментиране на изображения и генериране на изображения — надминавайки съществуващите проекти с линейна сложност като линейно внимание и визуални модели Mamba.

Пробивът има значителни практически последици. Линейната сложност означава, че с увеличаване на разделителната способност на входа изчислителните разходи нарастват пропорционално, а не експлозивно. Това прави визуалното разбиране с висока разделителна способност осъществимо на устройства с ограничени ресурси – от смартфони до роботи – без затрудненията в паметта и изчисленията, които измъчват традиционните визуални трансформатори.

Изследването е проведено в рамките на инициативата LeapLabTHU в университета Цинхуа, с достъпен код в GitHub. Документът (arXiv:2512.01643) представлява съвместни усилия между отдела по компютърни науки на Tsinghua и DAMO Academy на Alibaba.

Source link

Tsinghua и Alibaba Joint Paper представят ViT³: Трансформатор на зрението с линейна сложност – CVPR 2026 Oral

Like this:

Tsinghua и Alibaba Joint Paper представят ViT³: Трансформатор на зрението с линейна сложност – CVPR 2026 Oral

Share this:

Like this: