LLM для синтеза речи: простая архитектура и высокое качество

Пока все обсуждают генерацию текста и картинок, под капотом синтеза речи произошла тихая революция. Сложные специализированные архитектуры TTS (Text-to-Speech) уступают место простому, но мощному дуэту: языковой модели и нейросетевому кодеку. Такие проекты, как Orpheus, Spark-TTS, Cosyvoice, Kimi-Audio и 2cent-TTS, демонстрируют, что для получения высококачественной речи достаточно представить аудио как еще один язык для LLM.

Простая архитектура нового поколения

Вся магия современных систем синтеза речи сводится к двум ключевым компонентам. Первый — нейросетевой кодек, который сжимает аудиосигнал в последовательность дискретных токенов и декодирует их обратно в звук. Второй — языковая модель, которая предсказывает следующую аудиотокен в последовательности на основе текстового промпта или эталонного аудио. Примерно так же, как она предсказывает следующее слово в предложении.

Визуализация этой архитектуры выглядит следующим образом:

Нейросетевые кодеки: от XCodec2 до DAC

Выбор кодера — критически важное решение, влияющее на качество, скорость и эффективность всей системы. Кодеки различаются по нескольким ключевым параметрам:

Токенов в секунду: определяет, сколько дискретных единиц кодирует одну секунду аудио. Меньшее значение ускоряет генерацию. Например, XCodec2 от Llasa работает с 50 токенами в секунду, а кодек Cosyvoice — с 25.
Количество кодбуков: некоторые кодеки используют несколько параллельных наборов токенов (например, DAC с 8 кодбуками), другие — один.
Архитектура: диффузионные кодеки (VibeVoice, Chatterbox) выдают лучшее качество, но работают медленнее из-за итеративного процесса. Одношаговые кодеки (Orpheus, Spark-TTS) быстрее, но могут слегка проигрывать в детализации.
Размер словаря: общее количество уникальных токенов. Меньший размер (например, 8192 у Snac от Orpheus против 65536 у XCodec2) обычно упрощает и ускоряет обучение модели.
Частота дискретизации: определяет качество звука. DAC работает с 44.1 кГц, что дает чистый звук, но требует больше токенов в секунду (774).

Среди наиболее известных решений:

XCodec2: одно-кодбуковый кодек для 16 кГц аудио, 50 токенов/сек, размер словаря 65536. Используется в моделях Llasa и T5GemmaTTS.
DAC: кодек с 8 кодбуками для 44.1 кГц аудио, 774 токена/сек, размер кодбука 1024. Лежит в основе Zonos и Parler-TTS.
Декодер Cosyvoice: диффузионный одно-кодбуковый кодек для 24 кГц аудио, 25 токенов/сек, размер словаря 8192. Используется в CosyVoice, GLM-TTS, Chatterbox и Qwen-Omni.

Языковая модель: сердце системы

Кодек лишь переводит аудио в токены и обратно. Генерацией речи по-прежнему занимается LLM. Ключевая идея — трактовать аудиотокены как новый «язык». Для этого:

Словарь модели расширяется, включая новые аудиотокены.
Модель обучается предсказывать следующий аудиотокен на основе текстовых токенов или эталонных аудиотокенов — в точности как при генерации текста.

Такой подход открывает уникальные возможности. Например, клонирование голоса перестает быть отдельной сложной задачей. Достаточно подать на вход модели образец речи (в виде токенов) вместе с его транскрипцией, и LLM продолжит генерировать речь в том же стиле.

Преимущества подхода на основе LLM

Использование языковых моделей для TTS — не просто мода, а логичное развитие, дающее несколько стратегических преимуществ:

Масштабируемость: инфраструктура для LLM (оптимизации вроде kv-cache, квантования, специализированные библиотеки vLLM, lmdeploy, sglang) уже отлично проработана. Это позволяет эффективно обрабатывать большие батчи, ускоряя как обучение, так и инференс.
Мультимодальность: одна и та же архитектура может выполнять TTS, автоматическое распознавание речи (ASR) и речевой перевод. Достаточно просто изменить обучающие данные, не трогая саму модель.
Упрощение: отпадает необходимость в сложных лингвистических пайплайнах, фонемах и прочих надстройках, характерных для предыдущих поколений систем синтеза.

Элегантность этого подхода завораживает. Мы десятилетиями строили сложные специализированные конвейеры для синтеза речи, а теперь оказывается, что универсальный «текстовый» трансформер, обученный на новом «языке» звука, справляется не хуже, а часто и лучше. Это классический пример того, как масштаб и архитектурная универсальность побеждают узкоспециализированные хаки. Правда, есть и обратная сторона: вся эта магия теперь зависит от доступа к большим вычислительным кластерам для обучения гигантских моделей. Демократизация технологии снова упирается в вопрос ресурсов.

Подход с использованием LLM для TTS — яркий пример конвергенции технологий, когда решение из одной области неожиданно оказывается оптимальным в другой. Он не только повышает качество и гибкость синтеза, но и упрощает разработку, открывая путь к созданию по-настоящему мультимодальных голосовых ассистентов.

По материалам Hugging Face.

Синтез речи из текста переходит от TTS-систем к LLM и нейросетевым кодекам

Простая архитектура нового поколения

Нейросетевые кодеки: от XCodec2 до DAC

Языковая модель: сердце системы

Преимущества подхода на основе LLM

Сэм Альтман после проблем с GPT-5 признал, что подход к масштабированию ИИ-моделей был ошибочным

Amazon разрабатывает инструменты для измерения справедливости LLM

GPT-5 не оправдал ажиотаж, но может принести OpenAI прибыль

OpenAI запускает совместные проекты и умные коннекторы для командной работы в ChatGPT

Более половины ссылок, выдаваемых ChatGPT, оказались фейковыми или содержат ошибки

Как Amazon автоматизировал создание описаний товаров с помощью LLM

Простая архитектура нового поколения

Нейросетевые кодеки: от XCodec2 до DAC

Языковая модель: сердце системы

Преимущества подхода на основе LLM

Похожие записи