WRITER обновил инфраструктуру: перестроили систему маршрутизации вызовов к LLM
Инженерная команда платформы WRITER провела масштабную миграцию бэкенда, полностью перестроив систему маршрутизации вызовов к языковым моделям. Старая архитектура, созданная в период, когда индустрия только формировала подходы к работе с генеративным ИИ, перестала справляться с растущими требованиями к гибкости и скорости интеграций. Новое решение, названное LLM Gateway, сократило время добавления новых моделей и провайдеров с месяцев и недель до минут, по сообщению Writer.
От хаоса кастомного кода к единому шлюзу
Пять лет назад, когда WRITER начал работать с генеративным ИИ, не существовало готовых решений и лучших практик. Команда создала сервис Content Generation как собственный шлюз для интеграции с LLM. Это была надежная, но жестко закодированная система, связывающая платформу с небольшим числом тщательно отобранных провайдеров инференса.
Проблемы начались, когда потребовалось расширять список поддерживаемых моделей и провайдеров. Каждая новая интеграция, например с Amazon Bedrock, превращалась в сложный и долгий проект. Кодовая база сервиса разрослась, что наглядно демонстрирует визуализация истории Git в исходном материале

Разработчикам и автоматическим агентам приходилось бы разбираться в особенностях API каждого нового провайдера, что делало процесс медленным и подверженным ошибкам.
Это классическая история технического долга в быстроразвивающейся области. Команда построила эффективное решение для конкретного момента, но архитектура не была рассчитана на экспоненциальный рост экосистемы LLM. Теперь они платят за эту предусмотрительность месяцами миграции. Ирония в том, что их новый «универсальный пульт» для LLM сам может устареть, когда появится следующий прорывной способ взаимодействия с моделями.
LLM Gateway: архитектура для скорости и самообслуживания
Новый LLM Gateway задуман как единая точка доступа ко всем моделям и провайдерам. Вместо ручного кодирования интеграций он использует готовые библиотеки и динамическую конфигурацию на основе базы данных. Это позволяет добавлять новых провайдеров с беспрецедентной скоростью.
Архитектура шлюза построена вокруг трех ключевых принципов рабочего цикла: Build (Создание), Activate (Активация) и Supervise (Контроль).
- Build: Инженеры и ИТ-администраторы клиентов могут самостоятельно подключать свои модели и провайдеры.
- Activate: Использование инференса можно развернуть где угодно — внутри платформы WRITER или во внешнем ПО клиента через SDK.
- Supervise: Операционные и продуктовые менеджеры получают инструменты для мониторинга использования, принятия решений и обеспечения безопасности с помощью готовых защитных механизмов, кастомной безопасности, новых метрик и интеграций со сторонними инструментами observability.
Что изменилось для пользователей
Самое заметное улучшение — радикальное ускорение интеграции моделей. Если раньше клиентам приходилось ждать, пока команда WRITER вручную добавит и протестирует поддержку новой модели, то теперь они могут сделать это сами за секунды через админ-панель.
Новая система по умолчанию обладает высокой доступностью с несколькими репликами, регулярными проверками работоспособности моделей и балансировкой нагрузки. Конфигурацию можно менять на лету, что ускоряет итерации при работе с моделями. Клиенты могут тестировать разные версии моделей, используя разделение трафика и балансировку внутри системы.
Важный технологический шаг — консолидация всего взаимодействия вокруг единого OpenAI-совместимого API, который стал отраслевым стандартом. Это снижает сложность и уменьшает необходимость в написании кастомных провайдеров.
Защитные механизмы и будущее
В контексте агентного ИИ, где системы могут совершать действия и принимать решения, защитные механизмы (guardrails) становятся критически важным слоем безопасности. Они действуют как программируемый файрвол, который перехватывает и оценивает как входные данные для модели, так и ее выходные данные. Внедрение таких механизмов в LLM Gateway — это не просто техническое улучшение, а необходимость для безопасного масштабирования.
Миграция с устаревшей системы на новую архитектуру — это болезненный, но неизбежный этап для компаний, которые рано начали работать с генеративным ИИ. Решение WRITER показывает, что инвестиции в переосмысление инфраструктуры могут окупиться, открывая путь к более быстрому развитию, самообслуживанию клиентов и, в конечном счете, к более устойчивой и масштабируемой платформе. В мире, где новые модели появляются каждую неделю, скорость их интеграции становится ключевым конкурентным преимуществом.
