
29 април 2026 г. — Големият моделен екип на BaiLing на Ant Group има официално Ling-2.6-Flash с отворен код, предлагащ множество прецизни формати — включително BF16, FP8 и INT4 — за да даде на разработчиците гъвкавост в хардуерни среди, разходи за изводи и нужди за внедряване.
Ling-2.6-Flash е модел, настроен с инструкции, с общо 104 милиарда параметри и 7,4 милиарда активирани параметъра. Преди две седмици беше тихо пуснат на OpenRouter под анонимното име „Elephant Alpha“.
Според екипа обратната връзка от разработчиците, събрана през последните две седмици, е довела до множество кръгове на оптимизация, подобряване на възможностите за двуезично превключване на модела (китайски и английски) и подобряване на съвместимостта с основните рамки за кодиране.
Основните силни страни на модела са в три ключови области:
- Хибридна линейна архитектура за по-бързи изводи Чрез въвеждането на хибриден линеен дизайн, Ling-2.6-Flash значително подобрява изчислителната ефективност. При 4× H20 GPU настройка скоростта на извод може да достигне до 340 токена в секунда, с пропускателна способност на предварително запълване 2,2× по-висока от Nemotron-3-Super.
- Оптимизиране на ефективността на токена за по-добро съотношение на производителност и цена Моделът е обучен с целево калибриране на ефективността на токена, с цел постигане на задачи с по-сбити резултати. В тестовете за изкуствен анализ, Ling-2.6-Flash използва само 15 милиона токена, приблизително една десета от модели като Nemotron-3-Super.
- Целеви подобрения за сценарии на AI агент Проектиран с оглед на приложенията на агент, моделът е усъвършенстван за използване на инструменти, многоетапно планиране и изпълнение на задачи. В бенчмаркове като BFCL-V4, TAU2-bench, SWE-bench Verified, Claw-Eval и PinchBench, той осигурява производителност, сравнима или дори надминаваща модели със значително по-големи активни размери на параметрите.

Източник: IT Home
