
Съвместен изследователски екип от Zhejiang University, ByteDance Seed и Beijing Jiaotong University представи SpatialTree, нова рамка, приета на CVPR 2026, която систематично предефинира как мултимодалните големи езикови модели (MLLMs) се справят с пространствената интелигентност.
Докато днешните MLLMs могат да описват изображения и да разбират видео, истинското пространствено разбиране – преценка на разстоянието, оценка на размера, разбиране на връзките с множество изгледи и планиране на навигационни маршрути – остава основно предизвикателство.
SpatialTree организира възможностите в четири слоя: възприятие (базово разстояние, размер, форма, движение, посока), ментално картографиране (преобразуване на пространствена информация в език и памет), ментална симулация (пространствено разсъждение преди действие, като планиране на маршрут) и агентска компетентност (превеждане на възприятието в действия като навигация на игри или роботизирана манипулация).
Екипът изгради SpatialTree-Bench, покриващ 27 пространствени подвъзможности. Резултатите показват, че дори най-добрият модел — Gemini 3 Flash — получава среден резултат само 57,8, което показва, че пространствената интелигентност остава неразгадана. Seed 1.8 на ByteDance постигна 50.3 в най-високото ниво.
