Продължете към съдържанието

Китайският AI екип „MopMonk“ проби в глобалния топ 7 на CyberGym Security Benchmark

  • от



Китайският AI екип „MopMonk“ проби в глобалния топ 7 на CyberGym Security Benchmark

Мистериозен китайски AI екип, работещ под кодовото име „MopMonk“, нахлу в глобалния топ 7 на бенчмарка за киберсигурност CyberGym, постигайки 73,1% успеваемост, което го поставя на поразително разстояние от моделите от най-високо ниво на OpenAI. Постижението предизвика шок в общността за сигурност на AI, тъй като екипът излезе от пълна неизвестност без предишен опит.

CyberGym, разработен от Калифорнийския университет в Бъркли и избран за ICLR 2026, е широко смятан за най-строгия публичен еталон за възможности за киберсигурност на AI. Състои се от 1507 случая на уязвимост в реалния свят, извлечени от 188 проекта с отворен код, произхождащи от базата данни на Google OSS-Fuzz — което го прави 7,5 пъти по-голям от предишния най-голям публичен бенчмарк. За разлика от конвенционалните бенчмаркове, които тестват припомнянето на знания, CyberGym изисква AI агентите да извършват задълбочено разсъждение на кода в кодови бази, съдържащи хиляди файлове и милиони редове код, след което да генерират работещи експлойти за доказателство на концепцията, които задействат уязвимости в нефиксирани версии, като същевременно остават инертни в тези с корекции.

Постижението на MopMonk се отличава не само с класирането, но и с пълната анонимност на отбора. Работейки без уебсайт, присъствие в социалните медии или предишен публичен опит, екипът е публикувал само един технически доклад, описващ подробно своя подход. Самото кодово име черпи от архетипа „помитащ ​​монах“ в класическата литература на wuxia – невзрачна фигура, криеща дълбока бойна мощ – отразявайки съзнателното избягване на публичността на екипа въпреки техническите постижения от световна класа.

От решаващо значение за успеха на MopMonk е използването на MiniMax M3 като базов модел. Базираният в Шанхай модел с отворен код предоставя три ключови възможности: възможност за кодиране на гранично ниво, прозорци с дълъг контекст от 1M-токен и собствена мултимодална обработка. Патентованата технология Harness на екипа позволява прецизно управление на паметта за уязвимости в сложни кодови пътеки, доказвайки се като ключов разграничител срещу конкуренти като OpenAI и Anthropic.

Появата на MopMonk сигнализира за по-широка промяна в конкуренцията с изкуствен интелект от сурови параметри на модела към практически агентски способности – способността да се изпълняват сложни, многоетапни задачи в реални среди. Той също така подчертава бързо развиващата се екосистема за сигурност на ИИ в Китай, където анонимни екипи вече могат да се конкурират с най-добре финансираните лаборатории за ИИ в света и да постигат резултати, които бяха немислими само преди месеци.



Source link