DeepSeek пусна първото си голямо постижение с отворен код след приключването на кръга на финансиране от $7 милиарда – спекулативна рамка за декодиране, наречена DSpark, която увеличава скоростта на генериране с 60-85%, без да променя основната архитектура на модела.

Рамката, подробно описана в статия, написана в съавторство от основателя на DeepSeek Liang Wenfeng и изследователи от Пекинския университет, е озаглавена „DSpark: Доверително планирано спекулативно декодиране с полуавторегресивно генериране“. Наред с документа DeepSeek предостави с отворен код моделите DeepSeek-V4-Pro-DSpark и DeepSeek-V4-Flash-DSpark, както и пълната верига инструменти за обучение DeepSpec в GitHub.

Спекулативното декодиране е техника за ускоряване на извода без загуби, която работи чрез разделяне на генерирането на чернова от проверката на целевия модел. Олекотен модел на чернова генерира бързо последователност на чернова и целевият модел я проверява в пакет, търгувайки с необработени изчисления за намалено забавяне. Съществуващите паралелни съставители обаче страдат от бързо намаляващи нива на приемане за по-късни токени поради липсващи зависимости на токени.

DSpark се справя с това чрез две ключови иновации. Първо, полу-авторегресивна архитектура съчетава паралелна опорна мрежа с леки серийни модули, изграждайки вътрешноблокови зависимости на токени за смекчаване на намаляването на степента на приемане в края на последователността. Второ, механизъм за планирана проверка на доверието динамично коригира дължината на проверката за всяка заявка въз основа на прогнозната вероятност за приемане на префикса и характеристиките на пропускателната способност на двигателя.

В офлайн сравнителни тестове за много домейни, DSpark значително подобрява ефективната приета дължина на последователността в сравнение с най-съвременните авторегресивни и паралелни чертачи. Когато се внедри в онлайн производствената система на DeepSeek, обработваща реален потребителски трафик, той намалява загубата на изчисления от невалидни верификации, като същевременно осигурява 60-85% по-бърза скорост на генериране от един потребител в сравнение с базовата линия за зряло производство (MTP-1), като общата пропускателна способност се поддържа.

Придружаващата библиотека с отворен код DeepSpec предоставя пълен набор от инструменти за обучение и оценка на чернови на модели за спекулативно декодиране, включително инструменти за подготовка на данни, реализации на чернови на модели, код за обучение и скриптове за оценка под лиценза на MIT. Той поддържа три чернови модела: DSpark, DFlash и Eagle3 и е съвместим с модели като Qwen3 и Gemma.

Това издание сигнализира стратегическото насочване на DeepSeek към оптимизиране на изводите след мащабния кръг на финансиране, позиционирайки компанията да се конкурира не само с качеството на модела, но и с ефективността на внедряване в реалния свят.

Source link

DeepSeek DSpark увеличава скоростта на генериране с 85% в първия документ след финансиране

Like this:

DeepSeek DSpark увеличава скоростта на генериране с 85% в първия документ след финансиране

Share this:

Like this: