Продължете към съдържанието

Evolving-RL на Xiaohongshu: Нова парадигма за саморазвиващи се умения на AI агент



Evolving-RL на Xiaohongshu: Нова парадигма за саморазвиващи се умения на AI агент

Изследователи от Xiaohongshu (RED), влиятелната китайска платформа за начин на живот и социална търговия, публикуваха Evolving-RL, нова рамка за обучение с подсилване, която позволява на AI агентите да развиват автономно уменията си чрез опит, без да изискват отделни модули за извличане и изпълнение на умения.

Настоящите AI агенти са изправени пред фундаментално ограничение: веднъж обучени, параметрите на модела са фиксирани. Когато се сблъскват с нови задачи в производството, те не могат да се учат от опита или да се подобряват автономно. Съществуващите подходи към "саморазвиващи се агенти" обикновено оптимизират начина, по който опитът се съхранява и извлича, но оставят способността на модела действително да извлича полезни умения без внимание. Когато опитът с ниско качество замърси сигнала за обучение, агентите в крайна сметка се научават да игнорират целия натрупан опит – класическият "амнезия на уменията" проблем.

Evolving-RL излиза от тази задънена улица чрез архитектура за съвместно развитие с един модел. Същите параметри на модела изпълняват едновременно две роли: an "екстрактор" който дестилира умения за структуриран текст от минали траектории на взаимодействие, и a "решаващ проблем" който прилага тези умения към нови задачи. И двете роли споделят един и същ основен модел, актуализиран чрез унифициран цикъл за оптимизация.

Процесът на обучение протича в четири етапа. Първо, решаващият взаимодейства с изходните задачи, за да генерира траектории на взаимодействие. Второ, екстракторът произвежда множество кандидат умения от всяка траектория. Трето, тези умения се тестват в свързани задачи надолу по веригата, за да се оцени тяхното качество. Четвърто, съвместен сигнал за оптимизация насочва и двете роли да се подобряват едновременно — изпълнението на задачата надолу по веригата възнаграждава висококачествени умения, докато излагането на различни качества на умения обучава решаващия да използва добрите умения и да се съпротивлява на подвеждащите.

Резултатите са поразителни. На теста за взаимодействие на закрито ALFWorld, Evolving-RL постигна 96,0% успеваемост с умения за известни задачи и 88,6% за невиждани задачи — 98,7% подобрение спрямо GRPO за невиждани задачи. В бенчмарка за уеб навигация Mind2Web, Evolving-RL постигна 30,87% точност на действие срещу 22,73% на GRPO с особено силни печалби в сценарии с кръстосани задачи (42,0% срещу 28,8%).

Проучванията за аблация потвърдиха, че и екстракторът, и решаващият трябва да бъдат обучени съвместно. Обучението на двата компонента поотделно доведе до значително по-лоши резултати: обучението само за извличане доведе до умения, които превишават данните за обучението, докато обучението само за решаване накара модела да научи безразличие към всички умения. Само пълната рамка за съвместно развитие постигна оптимална производителност както в познати, така и в нови сценарии.

Уменията, генерирани от Evolving-RL, също демонстрираха възможност за прехвърляне между модели. Когато бяха инжектирани в базовия модел Qwen2.5-7B-Instruct, уменията, извлечени от Evolving-RL, подобриха степента на успех в ALFWorld от 45,5% на 60,4%. Същите умения повишиха модел, обучен с GRPO, от 79,9% на 88,8%. Това потвърждава, че рамката създава наистина подлежащи на обобщение опитни знания, а не специфични за модела артефакти.



Source link