Воден от X-LANCE Lab на университета Jiao Tong в Шанхай – една от най-добрите изследователски организации за аудиовизуална и езикова обработка в Китай – моделът е наречен Habibi, което означава „скъпи мой“ на арабски.
При представянето на своите открития изследователският екип, ръководен от Чен Юшен, описва проекта в статия като „първата рамка с отворен код за синтез на унифициран диалект на арабска реч“.
„Доколкото ни е известно, липсват изследвания върху унифициран диалектен арабски TTS, да не говорим за рамка с отворен код“, казват авторите в статията „Habibi: Laying the Open-Source Foundation of Unified-Dialectal Arabic Speech Synthesis“. Той беше публикуван миналия месец в arXiv, хранилище с отворен достъп, което не е рецензирано.
Habibi има способността за „нулев удар“, което означава, че моделът може лесно да клонира глас, като използва само кратък референтен аудио клип, без предварително изрично или обширно обучение. Това позволява на приложенията да работят в сценарии с висока ефективност и в движение.
