Продължете към съдържанието

Пекинският университет и DeepSeek DSpark с отворен код, осигуряващи голям скок в ефективността на LLM Inference

  • от



Пекинският университет и DeepSeek DSpark с отворен код, осигуряващи голям скок в ефективността на LLM Inference

Пекинският университет и DeepSeek съвместно пуснаха и пуснаха DSpark с отворен код, спекулативна рамка за декодиране, която осигурява голям скок в ефективността на извода на големия езиков модел, постигайки 60-85% по-бързо генериране на текст при реално натоварване на сървъра и до 661% подобрение на пропускателната способност при строги ограничения на латентността.

Настоящите големи езикови модели разчитат на авторегресивно генериране, при което всеки токен изисква пълно преминаване напред, създавайки значително забавяне в разговорния AI. Спекулативното декодиране се очертава като основен път за ускоряване, но съществуващите подходи страдат от критични слабости: серийните чернови модели генерират твърде бавно кандидати за дълги последователности, докато паралелните чернови модели виждат бързи спадове в степента на приемане за по-късни токени, губейки изчислителни ресурси в сценарии с висока едновременност.

DSpark въвежда механизъм за двойна оптимизация за справяне с тези предизвикателства. От страна на генерирането, той използва полу-авторегресивна архитектура, съчетаваща подобрена паралелна опорна мрежа, която извежда кандидат-характеристики с едно преминаване с леки последователни модули, които добавят вътрешноблокови токен зависимости. Забележително е, че само два трансформаторни слоя в DSpark превъзхождат петслойните традиционни паралелни архитектури, като балансират скоростта и качеството на кандидатите.

От страна на проверката, DSpark въвежда механизъм за планирана проверка на доверието с планировчик на префикси, съобразен с хардуера. Той динамично разпределя изчислителни ресурси въз основа на натоварването в реално време и вероятността за оцеляване на кандидата, като дава приоритет на високонадеждни текстови сегменти за проверка и елиминира напразните изчисления.

Сравнителното тестване на математически разсъждения, генериране на код и разговорни задачи на масови модели, включително Qwen3 и Gemma4, показа, че DSpark постига 30,9% по-дълго ефективно генериране от Eagle3 и 16,3% повече от DFlash на Qwen3-4B, разрешавайки проблема със затихването на приемането на дълга последователност, като същевременно запазва предимството на скоростта на генериране на първи токен на паралелната архитектура.

Рамката вече е внедрена в машини за предварителен преглед DeepSeek-V4-Flash и DeepSeek-V4-Pro. Тестването на трафика в реалния свят разкри трансформиращи подобрения в пропускателната способност: при 80 токена/s на потребител SLA, пропускателната способност на V4-Flash се подобри с 51% спрямо базовата линия; при 120 токена/s предимството достигна 661%. За V4-Pro увеличенията на пропускателната способност бяха 52% при 35 токена/s и 406% при 50 токена/s SLA. Системата автоматично настройва продължителността на проверката въз основа на едновременното натоварване, като се адаптира безпроблемно към променливите модели на трафик.

Пълният код за обучение, инструментите за оценка и теглата на модела за DSpark, DFlash и Eagle3 са с отворен код в рамките на проекта DeepSpec на GitHub, предоставяйки на индустрията цялостно решение за рентабилно високопроизводително внедряване на изводи за LLM.



Source link