Google выпустила Gemini 3.1 Flash TTS: синтез речи на 70+ языках

Корпорация Google анонсировала выпуск своей наиболее продвинутой модели для преобразования текста в речь — Gemini 3.1 Flash TTS. Как сообщает издание the-decoder.com, новая разработка ориентирована на достижение максимальной естественности звучания и поддерживает более 70 языков, что делает ее одним из самых масштабных обновлений в линейке аудиовизуальных инструментов компании.

Ключевым нововведением стали так называемые аудио-теги — текстовые команды, позволяющие разработчикам гибко управлять стилистикой, темпом, тональностью и даже акцентом генерируемого голоса. Модель способна имитировать многопользовательские диалоги, сохраняя индивидуальные характеристики каждого спикера, что открывает широкие возможности для создания интерактивного контента и цифровых помощников нового поколения.

Технические характеристики и рыночное позиционирование

В актуальном рейтинге Artificial Analysis Gemini 3.1 Flash TTS продемонстрировала впечатляющий показатель Elo в 1 211 баллов. По совокупности качественных характеристик модель обошла популярное решение Elevenlabs v3, уступив лишь лидеру сегмента — Inworld 1.5 Max. Особенностью предложения Google является оптимальное соотношение стоимости и качества генерации.

Ценовая политика компании разделена на два уровня. Бесплатный уровень доступа подразумевает использование данных для обучения и улучшения продуктов Google. Платный вариант стоит 1 доллар за миллион токенов на входе и 20 долларов за аналогичный объем аудио на выходе. При использовании пакетной обработки (batch mode) стоимость снижается вдвое, а конфиденциальность данных гарантируется отсутствием их использования в обучающих выборках.

Технологический скачок в качестве синтеза очевиден, однако Google традиционно оставляет за скобками вопрос «галлюцинаций» в интонациях и реальную глубину кастомизации акцентов для малых языков. Мы видим отличный инструмент для масс-маркета, который, впрочем, все еще требует SynthID-маркировки, чтобы не быть спутанным с реальностью. Это качественный продукт, но за внешней выразительностью скрывается все та же жесткая архитектурная дисциплина, не допускающая подлинной импровизации.

Доступность и безопасность использования

На текущий момент Gemini 3.1 Flash TTS доступна в режиме предварительного просмотра через Gemini API и платформу Vertex AI для корпоративных клиентов. Интеграция также коснулась сервиса Google Vids в рамках Workspace, что позволяет пользователям создавать видеоконтент с профессиональной озвучкой без привлечения дикторов.

Для обеспечения этичного использования ИИ Google интегрировала технологию SynthID. Это невидимый для человеческого уха водяной знак, который встраивается непосредственно в аудиопоток. Подобная мера позволяет однозначно идентифицировать контент как созданный искусственным интеллектом, что критически важно в условиях борьбы с дипфейками и дезинформацией.

Для тех, кто хочет протестировать возможности модели на практике, Google AI Studio предоставляет бесплатный доступ к функционалу генерации. Разработчики могут экспериментировать с промптами, задавая через аудио-теги специфические параметры, например: , чтобы получить специфический результат, максимально приближенный к задачам конкретного проекта.

Google представила Gemini 3.1 Flash TTS — модель синтеза речи на 70 языках

Технические характеристики и рыночное позиционирование

Доступность и безопасность использования

GPT-5 превращает ИИ из помощника в стратегического партнера для бизнеса

Как решить проблему нестабильности LLM-оценок в корпоративных приложениях

Meta планирует выпустить новую версию Llama 4 до конца 2025 года

Бенчмарк GDPval от OpenAI для оценки ИИ в реальных задачах: кто в лидерах

Google судится с издателями за то, что показывает в результатах поиска краткое содержание статей

Как OpenAI пытается искоренить политическую предвзятость в ChatGPT

Технические характеристики и рыночное позиционирование

Доступность и безопасность использования

Похожие записи