Baidu разкрива Unlimited-OCR: Постоянният KV кеш осигурява SOTA производителност при дълги документи

Baidu пусна Unlimited-OCR, новаторски OCR модел, който разрешава фундаментално затруднение в транскрипцията на дълги документи — линейното нарастване на KV кеша в базирани на декодери архитектури. Чрез въвеждането на Reference Sliding Window Attention (R-SWA), Unlimited-OCR компресира KV кеша от линеен до постоянен, постигайки най-съвременни резултати в бенчмарка OmniDocBench.

Основната иновация се занимава с проблем, познат на всеки, който е наблюдавал как OCR се бори с многостранични документи. Стандартните OCR модели от край до край използват LLM-базирани декодери, където KV кешът расте линейно с дължината на изхода, консумирайки все повече памет и забавяйки пропускателната способност. Предишни заобиколни решения включваха последователна обработка на страници с for-цикли, които изчистваха паметта между страниците, но това фрагментира това, което трябва да бъде непрекъснат процес.

R-SWA имитира човешката работна памет по време на транскрипция. Вместо да се обръща внимание на всички предварително генерирани токени — което би довело до раздуване на KV кеша — всяка стъпка на генериране се грижи за два фиксирани набора: всички референтни токени (визуални токени и подкани) и най-новите 128 изходни токена. Визуалните жетони остават видими навсякъде, докато изходният прозорец се плъзга, позволявайки преминаването на далечна информация "меко забравяне" а не рязко изчистване.

Създаден върху архитектурата DeepEncoder на DeepSeek-OCR, Unlimited-OCR използва SAM-ViT каскадно с CLIP-ViT с 16x компресия на токени, намалявайки PDF страница с размери 1024×1024 до само 256 визуални токена. Моделът е MoE архитектура с 3B параметър с 500M активирани параметри, като всички нива на внимание са заменени от R-SWA.

Резултатите са поразителни. На OmniDocBench v1.6 Unlimited-OCR постига 93,92% общ резултат, създавайки нова SOTA. В сравнение с 87,01% на DeepSeek-OCR на v1.5, подобрението надхвърля шест процентни пункта. Разстоянието за редактиране на текст спадна от 0,073 на 0,038, формулата CDM се повиши от 83,37 на 92,61, а таблицата TEDS се подобри от 84,97 на 90,93.

Производителността при дълги документи е особено впечатляваща. На тестов набор от собствено производство, документи от 20 страници, обработени с едно преминаване, постигат разстояние за редактиране от 0,0572 с 99,89% Distinct-35. Дори документи от 40+ страници остават използваеми при разстояние за редактиране 0,1069 и 96,90% Distinct-35.

Пропускателната способност се мащабира до 5580 TPS на OmniDocBench спрямо 4951 TPS на DeepSeek-OCR, подобрение от 12,7%. Критично, докато латентността на DeepSeek-OCR на повикване нараства линейно със стъпките на декодиране – с пикове на границите на подравняване – латентността на Unlimited-OCR остава постоянна през цялото време, равна линия, независимо от дължината на последователността.

Механизмът R-SWA има последици извън OCR. Изследователите го позиционират като общо решение за декодиране за задачи с последователност от дълги разстояния, потенциално приложимо за парсиране на документи, генериране на код и всеки сценарий, при който поддържането на последователна производителност при дълги изходи е критично.

Source link

Baidu разкрива Unlimited-OCR: Постоянният KV кеш осигурява SOTA производителност при дълги документи

Baidu разкрива Unlimited-OCR: Постоянният KV кеш осигурява SOTA производителност при дълги документи

Share this:

Like this: