Продължете към съдържанието

DeepSeek представя нов документ за mHC архитектурата

  • от


На 1 януари 2026 г. DeepSeek публикува нова изследователска статия, представяща нова архитектура, наречена mHC (ограничена от колектор хипервръзка). Работата има за цел да се справи с нестабилността на обучението на традиционните хипервръзки (HC) в широкомащабни модели, като същевременно запазва значителните им предимства в производителността.

Според статията, mHC проектира остатъчното пространство за свързване на HC върху специфичен колектор, възстановявайки свойствата за картографиране на идентичността, като същевременно включва строги оптимизации на ниво инфраструктура, за да гарантира ефективност на времето за изпълнение. Емпиричните резултати показват, че mHC може ефективно да поддържа широкомащабно обучение, осигурявайки ясни подобрения на производителността заедно с по-силна скалируемост.

DeepSeek очаква mHC, като гъвкаво и практично разширение на хипервръзките, да задълбочи разбирането на дизайна на топологичната архитектура и да посочи обещаващи насоки за еволюцията на моделите на основата.

Документът изброява трима съавтори – Zhenda Xie, Yixuan Wei и Huanqi Cao. По-специално, основателят и главен изпълнителен директор на DeepSeek Liang Wenfeng също се появява сред авторите.

IMG_0376.jpeg



Source link