Sphere AI Lab има официално отворен код Orbit, рамка за обучение за укрепване (RL) след обучение, която позволява на модели с трилиони параметри като DeepSeek-V4 и Kimi-K2.6 да изпълняват фина настройка на RL на един 8xB200 GPU възел, задача, която преди това изискваше разпределени системи с много възли.

Основната иновация на Orbit се крие в нейния системен дизайн с първо устройство. Чрез замразяване на базов модел с ниска точност и обучение само на лек адаптер, Orbit компресира изискванията за GPU памет за модели с 1T-параметър от територия с множество възли до 1536GB HBM бюджет на един възел. Този подход елиминира прецизното несъответствие между обучението и внедряването, което отдавна измъчва системите след обучение на RL.

В бенчмаркове Orbit демонстрира стабилно подобрение на възнаграждението, нарастваща точност на оценката и увеличаване на показателите pass@k по време на RL обучение на Kimi-K2.6 и DeepSeek-V4 Flash на единични възли. Рамката също завърши предварително валидиране на DeepSeek-V4 Pro при параметри 1.6T, доказвайки нейната мащабируемост.

Ключовите технически характеристики включват активно-експертно деквантуване за MoE модели, роден асинхронен адаптер с двойно буферирано разгръщане за намалени балончета и декодиране на CUDA графика с интеграция на DeepGEMM. Рамката изисква синхронизация само на ниво адаптер (мегабайти), а не пълна синхронизация (гигабайти) между машини за обучение и изводи.

Версията с отворен код е достъпна на GitHub (Sphere-AI-Lab/orbit), с документация на spherelab.ai/orbit. Това бележи значителна стъпка към демократизиране на мащабно RL след обучение, което позволява на по-малки екипи да прецизират най-съвременните модели с ограничен хардуер.

Source link

Orbit Open-Source RL Framework позволява обучение на модел с трилион параметри с един възел

Like this:

Orbit Open-Source RL Framework позволява обучение на модел с трилион параметри с един възел

Share this:

Like this: