Синтез речи из текста переходит от TTS-систем к LLM и нейросетевым кодекам
Пока все обсуждают генерацию текста и картинок, под капотом синтеза речи произошла тихая революция. Сложные специализированные архитектуры TTS (Text-to-Speech) уступают место простому, но мощному дуэту: языковой модели и нейросетевому кодеку. Такие проекты, как Orpheus, Spark-TTS, Cosyvoice, Kimi-Audio и 2cent-TTS, демонстрируют, что для получения высококачественной речи достаточно представить аудио как еще один язык для LLM.
Простая архитектура нового поколения
Вся магия современных систем синтеза речи сводится к двум ключевым компонентам. Первый — нейросетевой кодек, который сжимает аудиосигнал в последовательность дискретных токенов и декодирует их обратно в звук. Второй — языковая модель, которая предсказывает следующую аудиотокен в последовательности на основе текстового промпта или эталонного аудио. Примерно так же, как она предсказывает следующее слово в предложении.
Визуализация этой архитектуры выглядит следующим образом:
Нейросетевые кодеки: от XCodec2 до DAC
Выбор кодера — критически важное решение, влияющее на качество, скорость и эффективность всей системы. Кодеки различаются по нескольким ключевым параметрам:
- Токенов в секунду: определяет, сколько дискретных единиц кодирует одну секунду аудио. Меньшее значение ускоряет генерацию. Например, XCodec2 от Llasa работает с 50 токенами в секунду, а кодек Cosyvoice — с 25.
- Количество кодбуков: некоторые кодеки используют несколько параллельных наборов токенов (например, DAC с 8 кодбуками), другие — один.
- Архитектура: диффузионные кодеки (VibeVoice, Chatterbox) выдают лучшее качество, но работают медленнее из-за итеративного процесса. Одношаговые кодеки (Orpheus, Spark-TTS) быстрее, но могут слегка проигрывать в детализации.
- Размер словаря: общее количество уникальных токенов. Меньший размер (например, 8192 у Snac от Orpheus против 65536 у XCodec2) обычно упрощает и ускоряет обучение модели.
- Частота дискретизации: определяет качество звука. DAC работает с 44.1 кГц, что дает чистый звук, но требует больше токенов в секунду (774).
Среди наиболее известных решений:
- XCodec2: одно-кодбуковый кодек для 16 кГц аудио, 50 токенов/сек, размер словаря 65536. Используется в моделях Llasa и T5GemmaTTS.
- DAC: кодек с 8 кодбуками для 44.1 кГц аудио, 774 токена/сек, размер кодбука 1024. Лежит в основе Zonos и Parler-TTS.
- Декодер Cosyvoice: диффузионный одно-кодбуковый кодек для 24 кГц аудио, 25 токенов/сек, размер словаря 8192. Используется в CosyVoice, GLM-TTS, Chatterbox и Qwen-Omni.
Языковая модель: сердце системы
Кодек лишь переводит аудио в токены и обратно. Генерацией речи по-прежнему занимается LLM. Ключевая идея — трактовать аудиотокены как новый «язык». Для этого:
- Словарь модели расширяется, включая новые аудиотокены.
- Модель обучается предсказывать следующий аудиотокен на основе текстовых токенов или эталонных аудиотокенов — в точности как при генерации текста.
Такой подход открывает уникальные возможности. Например, клонирование голоса перестает быть отдельной сложной задачей. Достаточно подать на вход модели образец речи (в виде токенов) вместе с его транскрипцией, и LLM продолжит генерировать речь в том же стиле.
Преимущества подхода на основе LLM
Использование языковых моделей для TTS — не просто мода, а логичное развитие, дающее несколько стратегических преимуществ:
- Масштабируемость: инфраструктура для LLM (оптимизации вроде kv-cache, квантования, специализированные библиотеки vLLM, lmdeploy, sglang) уже отлично проработана. Это позволяет эффективно обрабатывать большие батчи, ускоряя как обучение, так и инференс.
- Мультимодальность: одна и та же архитектура может выполнять TTS, автоматическое распознавание речи (ASR) и речевой перевод. Достаточно просто изменить обучающие данные, не трогая саму модель.
- Упрощение: отпадает необходимость в сложных лингвистических пайплайнах, фонемах и прочих надстройках, характерных для предыдущих поколений систем синтеза.
Элегантность этого подхода завораживает. Мы десятилетиями строили сложные специализированные конвейеры для синтеза речи, а теперь оказывается, что универсальный «текстовый» трансформер, обученный на новом «языке» звука, справляется не хуже, а часто и лучше. Это классический пример того, как масштаб и архитектурная универсальность побеждают узкоспециализированные хаки. Правда, есть и обратная сторона: вся эта магия теперь зависит от доступа к большим вычислительным кластерам для обучения гигантских моделей. Демократизация технологии снова упирается в вопрос ресурсов.
Подход с использованием LLM для TTS — яркий пример конвергенции технологий, когда решение из одной области неожиданно оказывается оптимальным в другой. Он не только повышает качество и гибкость синтеза, но и упрощает разработку, открывая путь к созданию по-настоящему мультимодальных голосовых ассистентов.
По материалам Hugging Face.
