Featured image for google predstavila obnovlennye golosovye modeli gemini dlya uluchshennogo vzaimodejstviya

Google представила обновленные голосовые модели Gemini для улучшенного взаимодействия

Компания DeepMind анонсировала значительное обновление аудиомоделей Gemini 2.5 Flash, которые теперь обеспечивают более естественные голосовые взаимодействия в реальном времени. Новые возможности охватывают как бизнес-приложения в виде голосовых агентов, так и функции перевода речи для повседневного использования.

Улучшенные голосовые агенты

Обновленная модель Gemini 2.5 Flash Native Audio демонстрирует существенные улучшения в трех ключевых областях:

  • Более точное выполнение функций: Модель надежнее определяет, когда требуется получение информации из внешних источников во время разговора, и плавно интегрирует эти данные в аудиоответ. На тесте ComplexFuncBench Audio модель показывает результат в 71,5%
  • Следование инструкциям: Уровень соблюдения разработческих инструкций вырос с 84% до 90%
  • Плавность диалога: Улучшена способность извлекать контекст из предыдущих реплик

Модель уже доступна в Google AI Studio, Vertex AI, а также постепенно внедряется в Gemini Live и Search Live.

Живой перевод речи

Одновременно с улучшением голосовых агентов представлена функция живого перевода речи, которая работает в режиме реального времени для наушников. Система сохраняет интонацию, темп и высоту голоса говорящего.

Ключевые возможности перевода:

  • Поддержка более 70 языков и 2000 языковых пар
  • Сохранение стиля речи говорящего
  • Распознавание нескольких языков в одной сессии
  • Автоматическое определение языка
  • Устойчивость к шуму
Диаграмма сравнения производительности Gemini 2.5 Flash Native Audio с предыдущими версиями и конкурентами
Источник: www.deepmind.google.com

Бета-версия уже доступна в приложении Google Translate для Android в США, Мексике и Индии, с поддержкой iOS и других регионов в ближайшее время.

Технический прогресс впечатляет, но рынок голосовых интерфейсов все еще сталкивается с фундаментальной проблемой: пользователи быстро устают от длительных разговоров с ИИ, независимо от его «естественности». Google делает ставку на интеграцию своих моделей во все продукты экосистемы — классическая стратегия доминирования через масштаб. Интересно, насколько быстро локальные провайдеры смогут предложить конкурентоспособные решения без доступа к аналогичным вычислительным ресурсам.

Реальные кейсы применения

Крупные компании уже используют новые возможности в производственных средах. Shopify внедрил систему для поддержки мерчантов, United Wholesale Mortgage обработала более 14 000 кредитных заявок, а Newo.ai создала виртуальных ресепшионистов, способных работать в шумной обстановке и переключаться между языками.

По сообщению DeepMind, на основе обратной связи разработчики продолжат улучшать функциональность и планируют интегрировать ее в большее количество продуктов Google, включая Gemini API в 2026 году.

Похожие записи