Featured image for google obedinila gemini cli i gke dlya optimizatsii llm razvertyvaniya

LLM

Google объединила Gemini CLI и GKE для оптимизации LLM-развертывания

ОтAlexei 20 октября, 2025

Google представила интеграцию Gemini CLI с Kubernetes Engine, которая позволяет автоматизировать развертывание языковых моделей и оптимизировать затраты на инфраструктуру. Решение призвано заменить месяцы ручной настройки готовыми манифестами и рекомендациями на основе данных.

Автоматизация выбора и развертывания моделей

Новый инструмент Gemini CLI в сочетании с расширением gke-mcp позволяет разработчикам использовать естественный язык для управления LLM-рабочими нагрузками. Система поддерживает Model Context Protocol (MCP), что обеспечивает интеллектуальные рекомендации по выбору оборудования и конфигурации.

Установка выполняется простыми командами:

brew install gemini-cli
gemini extensions install https://github.com/GoogleCloudPlatform/gke-mcp.git

После установки разработчики могут задавать вопросы на естественном языке:

Какие 3 самые дешевые модели доступны в GKE Inference Quickstart?
Как производительность этой модели отличается при работе на разных ускорителях?
Как выбрать между двумя моделями?
Сгенерируйте манифест для этой модели на этом ускорителе

Обложка видео с демонстрацией развертывания Gemini CLI — Источник: cloud.google.com

Оптимизация затрат при сохранении производительности

Выбор правильного оборудования для инференса требует балансировки между производительностью и стоимостью. Inference Quickstart предоставляет данные о производительности и затратах для различных конфигураций ускорителей, основанные на бенчмарках Google.

Как показывает практика, достижение минимальной задержки для моделей вроде Gemma 3 4b на vLLM значительно увеличивает стоимость. Это происходит из-за необходимости жертвовать эффективностью батчинга запросов ради низкой латентности.

Интересно, что Google решила автоматизировать именно ту часть ML-операций, которая традиционно была самой болезненной для команд — выбор оптимальной конфигурации инфраструктуры. Вместо бесконечных экспериментов с разными GPU и настройками теперь можно получить рекомендации на основе реальных данных. Правда, возникает вопрос: насколько эти рекомендации будут объективны, учитывая что Google продвигает собственные TPU и облачные сервисы.

График компромисса между производительностью и стоимостью модели Gemma 3 4b на vLLM — Источник: cloud.google.com

Расчет стоимости на основе токенов

При самостоятельном хостинге моделей на GKE оплата взимается за время использования ускорителей, а не за отдельные токены. Inference Quickstart использует следующую формулу для расчета стоимости токенов:

$/output token = Accelerator $/s / (1/4 input tokens/s + output tokens/s)
где
$/input token = ($/output token) / 4

Эта формула предполагает, что стоимость выходного токена в четыре раза превышает стоимость входного. Такой подход основан на том, что фаза предварительной обработки (префилл) является высокопараллельной операцией, тогда как генерация выходных токенов — последовательный процесс.

Ключевым преимуществом является возможность настройки соотношения стоимости токенов в зависимости от характеристик конкретной рабочей нагрузки.

По материалам Google Cloud Blog.

LLM

Мобильное приложение ChatGPT принесло OpenAI уже $2 млрд дохода
19 августа, 2025

Мобильное приложение ChatGPT достигло $2 млрд выручки с показателем $2.91 на установку, опережая конкурентов в 30 раз. Анализ Appfigures подтверждает доминирование OpenAI.

Читайте далее Мобильное приложение ChatGPT принесло OpenAI уже $2 млрд дохода
Разработка

Разработчики массово используют ИИ-инструменты, но не доверяют их результатам
29 сентября, 2025

90% разработчиков используют ИИ-инструменты ежедневно, но лишь 24% доверяют их результатам. Новое исследование Google Cloud раскрывает парадокс современного программирования.

Читайте далее Разработчики массово используют ИИ-инструменты, но не доверяют их результатам
LLM

ИИ до сих пор не умеет решать сложные задачи для научных исследований по физике
24 ноября, 2025

Новый физический бенчмарк CritPt показывает, что Gemini 3 Pro и GPT-5 демонстрируют точность менее 10% на реальных исследовательских задачах уровня аспиранта.

Читайте далее ИИ до сих пор не умеет решать сложные задачи для научных исследований по физике
LLM

GPT-5 не оправдал ажиотаж, но может принести OpenAI прибыль
19 августа, 2025

Релиз GPT-5 разочаровал ожидания революции, но принёс практические улучшения в скорости и стоимости. Модель лидирует в генерации кода, что может стать основой монетизации для OpenAI.

Читайте далее GPT-5 не оправдал ажиотаж, но может принести OpenAI прибыль
LLM

Исследование сотен миллионов чатов показало, что ИИ-агентов чаще используют для сложных задач
10 декабря, 2025

Первое масштабное исследование использования AI-агентов показало, что 57% активности приходится на когнитивную работу, а не рутинные задачи.

Читайте далее Исследование сотен миллионов чатов показало, что ИИ-агентов чаще используют для сложных задач
LLM

Токены мышления повышают стоимость генеративного ИИ
5 ноября, 2025

Специальные токены-паузы в языковых моделях повышают качество ответов, но значительно увеличивают стоимость использования ИИ из-за дополнительных вычислительных затрат.

Читайте далее Токены мышления повышают стоимость генеративного ИИ

Автоматизация выбора и развертывания моделей

Оптимизация затрат при сохранении производительности

Расчет стоимости на основе токенов

Похожие записи