Съвместен изследователски екип от Zhejiang University, ByteDance Seed и Beijing Jiaotong University представи SpatialTree, нова рамка, приета на CVPR 2026, която систематично предефинира как мултимодалните големи езикови модели (MLLMs) се справят с пространствената интелигентност.

Докато днешните MLLMs могат да описват изображения и да разбират видео, истинското пространствено разбиране – преценка на разстоянието, оценка на размера, разбиране на връзките с множество изгледи и планиране на навигационни маршрути – остава основно предизвикателство.

SpatialTree организира възможностите в четири слоя: възприятие (базово разстояние, размер, форма, движение, посока), ментално картографиране (преобразуване на пространствена информация в език и памет), ментална симулация (пространствено разсъждение преди действие, като планиране на маршрут) и агентска компетентност (превеждане на възприятието в действия като навигация на игри или роботизирана манипулация).

Екипът изгради SpatialTree-Bench, покриващ 27 пространствени подвъзможности. Резултатите показват, че дори най-добрият модел — Gemini 3 Flash — получава среден резултат само 57,8, което показва, че пространствената интелигентност остава неразгадана. Seed 1.8 на ByteDance постигна 50.3 в най-високото ниво.

Source link

CVPR 2026 приема SpatialTree на ByteDance Seed: Нова рамка за пространствена интелигентност на MLLM

Like this:

CVPR 2026 приема SpatialTree на ByteDance Seed: Нова рамка за пространствена интелигентност на MLLM

Share this:

Like this: