Продължете към съдържанието

DeepSeek DSpark получава редки похвали от PyTorch Core Maintainer в подробна техническа разбивка

  • от



DeepSeek DSpark получава редки похвали от PyTorch Core Maintainer в подробна техническа разбивка

DeepSeek, в сътрудничество с Пекинския университет, наскоро представи DSpark – система за изводи, предназначена да подобри драстично ефективността на обслужване на голям езиков модел, без да променя възможностите на модела. Изданието бързо се превърна в едно от най-дискутираните разработки в оптимизирането на изводите на LLM, привличайки особено внимание от поддържащия ядрото на PyTorch и съоснователя на Fireworks AI Дмитро Джулгаков.

Джулгаков публикува подробна нишка от десет туита, анализиращи техническите иновации на DSpark. Неговият анализ се съсредоточи върху това как DSpark постига 1,5x до 5x подобрение на пропускателната способност в производствени среди чрез интегриране на множество спекулативни стратегии за декодиране в единна кохерентна система от промишлен клас.

Основното предизвикателство, с което се занимава DSpark, произтича от авторегресивния характер на LLM, базирани на Transformer: всеки токен трябва да се генерира последователно, оставяйки графичните процесори бездействащи по време на голяма част от процеса на извеждане. Традиционните подходи за групиране просто компромисират латентността с пропускателната способност, като не успяват да преодолеят тясното място на серийното генериране.

Основната иновация на DSpark се крие в неговата полупаралелна архитектура за чертане. За разлика от чисто серийните чернови (EAGLE3), които създават съгласувани, но бавни прогнози, или чисто паралелните чернови (DFlash), които жертват точността на по-късни позиции, подходът на DSpark намира оптимален баланс. Той използва рамка за паралелно генериране за скорост, като същевременно включва леки модули за последователна зависимост – или глава на Markov, или глава RNN – които поддържат контекстуална кохерентност без значителни изчислителни разходи.

Според анализа на Джулгаков тази двуслойна мрежа постига точността на традиционните петслойни паралелни модели, ефективно решавайки индустриалната дилема „паралелният е неточен, серийният е бавен“. DSpark поддържа и двата вида модули, позволявайки гъвкаво адаптиране към различни архитектури на модели и сценарии за внедряване.

Разгърнат в производствената среда на DeepSeek V4, DSpark осигурява 60-85% подобрение в скоростта на генериране от един потребител и до 4 пъти увеличение на пропускателната способност на системата при натоварвания с висока паралелност. Системата е с отворен код заедно с Пекинския университет, което прави нейните иновации достъпни за по-широката AI общност.



Source link