
Kimi днес обяви Kimi K2 Thinking, най-способният „мислещ“ модел на компанията с отворен код до момента. Създаден около концепцията „модел като агент“, K2 Thinking естествено съчетава продължително многоетапно разсъждение с широко използване на инструменти – позволявайки на агенти, които могат да „мислят, докато използват инструменти“.
Какво прави
Кими казва, че K2 Thinking може автономно да изпълнява до 300 цикъла на извикване на инструменти в една сесия и да поддържа дълги, стабилни многооборотни вериги на разсъждения. Тази способност се захранва от най-новите техники на екипа за мащабиране на тестово време, които разширяват както броя на токените за разсъждение, така и итерациите на извикване на инструмент по време на извод, за да подобрят производителността на агентите и разсъжденията.
Бенчмаркове и възможности
K2 Thinking постига най-съвременни (SOTA) резултати в няколко бенчмарка за агенти и логика:
- Последният изпит на човечеството (всеобхватен академичен тест от затворена книга, обхващащ 100+ дисциплини): 44,9% (SOTA, когато инструментите са разрешени).
- BrowseComp (бенчмарк на OpenAI за агенти за сърфиране в мрежата): 60,2% (нова SOTA; средната стойност за хора е ~29,2%).
- SEAL-0 и други сложни тестове за събиране на информация/разсъждение: производителност на ниво SOTA. Кими подчертава постиженията в агентното търсене, агентното програмиране, творческото писане и общото многоетапно разсъждение. Примерните упътвания показват верижното итеративно търсене на модела → разглеждане → код → цикли на разсъждение за разлагане на проблеми с отворен край на подзадачи, които могат да бъдат извършени, и създаване на потвърдени отговори.
Агентско кодиране и творчески задачи
K2 Thinking подобрява производителността на кодиране при многоезични бенчмаркове за софтуерно инженерство (SWE-Multilingual, SWE-bench, Terminal tasks). Моделът е по-добър при задачи от предния край (HTML/React/компоненти) и може да работи вътре в софтуерни агенти, за да управлява многоетапни работни потоци за разработка – например сглобяване на работещ редактор в стил Word или създаване на вокселни арт творения. Творческите и изследователски способности също са по-силни: моделът създава по-последователно творческо писане в дълга форма, по-задълбочен академичен анализ и по-съпричастни, практически отговори на лични или емоционални запитвания.
Ефективност: естествено INT4 квантуване
За да намали забавянето и използването на паметта на графичния процесор по време на дълги разсъждения, Кими приложи обучение за квантуване и INT4 квантуване само за тегло за MoE компоненти. Резултатът: естествена поддръжка за изводи INT4, която грубо удвоява скоростта на генериране и подобрява съвместимостта с местни ускорителни чипове. Кими отбелязва, че всички докладвани сравнителни резултати са получени с точност INT4.
Наличност
K2 Thinking вече е на живо kimi.com и в най-новото мобилно приложение Kimi в стандартния режим на чат. Базовият модел също така ще замени базовия модел в режима на Kimi’s Agent в предстояща актуализация, за да даде възможност за пълно мислене с много обороти и използване на инструменти. Разработчиците имат достъп до модела чрез отворената платформа на Kimi (platform.moonshot.cn) или го изтеглете от обществени центрове за модели като Hugging Face и ModelScope за самостоятелно хостване. Платформата поддържа 256K контекст.
Бележки относно разгърнатия опит
За да запази обичайното изживяване в чата леко, Кими внедрява ограничен набор от инструменти и по-малко рундове за извикване на инструменти kimi.com и в приложението. В резултат на това чатът на място може да не отговаря на резултатите от бенчмарка; пълните агентски възможности ще станат видими, когато режимът на агент („OK Computer“) се актуализира до K2 Thinking.
източник: Кими
