
Консорциум от водещи китайски изследователски институции, включително HKUST (Гуанджоу), университета Цинхуа, университета Zhejiang, университета Westlake и университета Jiao Tong в Шанхай, пуснаха съвместно RoboMemArena, първият всеобхватен бенчмарк, специално създаден за оценка на способностите на роботизираната памет при задачи за манипулиране с дълъг хоризонт.
RoboMemArena адресира критична празнина в оценката на въплътения AI: повечето съществуващи бенчмаркове се фокусират върху краткосрочното възприятие и непосредствения контрол, като не успяват да преценят дали роботите могат да запомнят и разсъждават за исторически състояния. Бенчмаркът обхваща четири основни сценария за търсене на памет: прехвърляне на обекти, оклузия на целта, преброяване на действията и изпълнение на последователност.
Бенчмаркът включва 26 задачи с дълъг хоризонт със 151 фини подзадачи и 2600 експертни демонстрационни траектории. Трябва да се отбележи, че 68,9% от всички подзадачи са зависими от паметта, което го прави първият еталон, който изрично извежда на преден план историческата зависимост. Средната дължина на задачата надхвърля 1000 стъпки.
Отвъд симулацията, RoboMemArena включва пет реални задачи за паметта на роботи, включително наливане на бутилки (броене на действия), четкови чинии с размяна (невидимост на състоянието) и сложна задача IHMB (Имитирайте човек, за да направите закуска) с продължителност над 3 минути. Само методът PrediMem на екипа успешно завърши задачата IHMB.
Бенчмаркът осигурява мултимодален надзор, включително анотации на ниво подзадача, естествени анотации на ключови кадри и съгласувани визуални наблюдения със състоянията на робота. Всички ресурси са с отворен код: наборът от данни е на Hugging Face, кодът е на GitHub, а публичната класация позволява външни изпращания. Изследователската статия е достъпна на arXiv (2605.10921).
