
Shenzhen Hetao College, в сътрудничество с Harbin Institute of Technology (Shenzhen), Shenzhen Big Data Research Institute и Huawei, постигна забележителен пробив в домашните компютри с AI. Консорциумът успешно завърши пост-обучението с пълни параметри на модела DeepSeek-V4-Pro с 1,6 трилиона параметри, използвайки домашния изчислителен клъстер с изкуствен интелект Ascend 910C – отбелязвайки първия път, когато местни чипове в Китай са захранвали модел в такъв мащаб през целия процес на обучение.
Под сянката на ескалиращия американски контрол върху износа на модерни полупроводници, това постижение носи дълбоко стратегическо значение. Досега домашните AI ускорители до голяма степен се смятаха за жизнеспособни само за задачи за изводи — стартиране на предварително обучени модели. Успехът на Ascend 910C в пост-обучението с пълни параметри демонстрира, че произведените в Китай чипове вече могат да поддържат обучение на големи модели от световна класа, преминавайки това, което наблюдателите в индустрията смятат за най-трудния праг в домашните AI изчисления.
Защо пост-обучението с пълни параметри е толкова изискващо от техническа гледна точка.
DeepSeek-V4-Pro използва архитектура Mixture-of-Experts (MoE). По време на извод само подмножество от експертни модули се активират за токен, поддържайки изчислението управляемо. Обучението обаче изисква всеки експерт да учи едновременно – налагайки масивна комуникация между всички чипове. Обемът на обмен на данни по време на обучението на MoE е десетки пъти по-голям от този на стандартните плътни модели, което оказва изключителен натиск върху честотната лента на междусистемните връзки и синхронизацията.
За да преодолее тези пречки, екипът направи три инженерни открития.
Първо, на пъзел за памет: разпределяне и шардинг на 1,6 трилиона параметри в стотици чипове Ascend 910C с прецизно оркестрирано време за обмен на данни, за да се избегнат блокирания и препълване на паметта. Второ, балансиране на натоварването: персонализиран алгоритъм за планиране, оптимизиран за архитектура на MoE, който елиминира тесните места в комуникацията между карти. трето, толерантност към грешки без прекъсване: системата изпълни над 1500 последователни стъпки на обучение с нулеви прекъсвания и нулеви грешки, подкрепени от мониторинг на пълната верига и автоматизирана система за възстановяване.
Резултатите говорят сами за себе си. Използването на компютъра надхвърли 30 процента, като ефективността на ключовите оператори в обучението се подобри с 14 процента. В областта на обучението с трилиони параметри, 30-процентното използване се счита за висок промишлен клас – дори с чипове от най-високо ниво в чужбина повечето екипи постигат приблизително 40 процента. Пропастта се затваря бързо.
Отвъд техническите показатели, проектът култивира таланти от реалния свят. Четиридесет и двама студенти от колежа Hetao участваха в целия процес на обучение, придобивайки практически опит в изграждането и управлението на конвейер от големи модели в производствен клас – полагайки основите за следващото поколение инженери на ИИ в Китай.
Домашните изчисления с ИИ преминаха своя Рубикон. Обучението с трилиони параметри с пълни параметри вече не е въпрос на "ако" но "колко бързо."
