Anthropic выпустила флагманскую модель Opus 4.5 с интеграцией в Chrome и Excel
Компания Anthropic представила очередной релиз в своей линейке языковых моделей — Opus 4.5, завершающий серию обновлений 4.5. Эта модель демонстрирует рекордные показатели в бенчмарках программирования и получает новые инструменты для работы с браузером и электронными таблицами.
Технические достижения и рекорды
Opus 4.5 стала первой моделью, преодолевшей отметку в 80% на SWE-Bench verified — авторитетном бенчмарке для оценки способностей к программированию. Помимо этого, модель показывает выдающиеся результаты в использовании инструментов (tau2-bench и MCP Atlas) и решении общих задач (ARC-AGI 2, GPQA Diamond).
Ключевые улучшения включают:
- Улучшенную работу с памятью для длинных контекстов
- Функцию «бесконечного чата» для платных пользователей
- Сжатие контекста без уведомления пользователя
- Оптимизацию для агентских сценариев использования
Практические интеграции
Вместе с Opus 4.5 Anthropic расширяет доступность своих продуктов Claude for Chrome и Claude for Excel. Расширение для Chrome станет доступно всем пользователям Max-тарифа, а Excel-версия — пользователям Max, Team и Enterprise.
Как объяснила Дианна На Пенн, глава продуктового менеджмента исследований Anthropic: «Есть улучшения, которые мы сделали в качестве длинного контекста при обучении Opus 4.5, но сами по себе контекстные окна будут недостаточны. Знание правильных деталей, которые нужно запомнить, действительно важно в дополнение к просто более длинному контекстному окну».
Интересно наблюдать, как рынок ИИ превращается в гонку интеграций. Вместо абстрактных бенчмарков компании теперь соревнуются в том, чья модель лучше справится с Excel-формулами и браузерными расширениями. Anthropic явно делает ставку на практическую применимость, что разумно — разработчики устали от моделей, которые хорошо отвечают на вопросы, но не могут выполнить реальную работу.
Конкурентная среда
Opus 4.5 выходит на насыщенный рынок, где уже представлены недавние релизы конкурентов: GPT 5.1 от OpenAI (выпущен 12 ноября) и Gemini 3 от Google (выпущен 18 ноября). Особенностью подхода Anthropic является акцент на агентских сценариях, где Opus выступает в роли ведущего агента, управляющего группой подчиненных агентов на базе Haiku.
«Именно здесь такие основы, как память, становятся действительно важными, — отмечает Пенн. — Потому что Claude должен уметь исследовать базы кода и большие документы, а также знать, когда нужно вернуться назад и перепроверить что-то».
Ценовая революция на рынке LLM
Разработчики получат доступ к Opus 4.5 через API, приложения Claude и основные облачные платформы. Цена составляет 5 долларов за миллион входных токенов и 25 долларов за миллион выходных токенов. Это ответ на растущее ценовое давление на рынке: Opus 4, выпущенный в мае, стоил 15 долларов за миллион входных токенов и 75 долларов за миллион выходных, что означает сокращение цен примерно на две трети.
Anthropic также корректирует лимиты использования. Для пользователей Claude и Claude Code с доступом к Opus 4.5 компания убирает специфические для моделей ограничения. Пользователи Max и Team Premium получают более высокие общие квоты, что позволяет им сохранить тот же объем доступных токенов, который был с Sonnet.
Двукратное снижение цен на флагманскую модель — это не просто маркетинговый ход, а признание жестокой реальности рынка LLM. Конкуренция вынуждает даже лидеров играть по правилам commodity-рынка, где цена становится ключевым фактором выбора. Интересно, сколько времени пройдет до того, как мы увидим модели за доллар за миллион токенов.
Первые впечатления от тестирования
Тестировщики из Anthropic отметили, что Claude Opus 4.5 лучше справляется с неоднозначностью и анализирует компромиссы без дополнительных указаний. Модель способна находить решения сложных многокомпонентных ошибок в коде.
Клиенты с ранним доступом поделились конкретными результатами:
- Снижение использования токенов на 50-75% при решении тех же задач
- Улучшение точности в Excel и финансовом моделировании на 20%
- Повышение эффективности на 15%
- Сокращение времени выполнения сложных задач с 2 часов до 30 минут
- Улучшение результатов на 15% в Terminal Bench по сравнению с Sonnet 4.5
По материалам TechCrunch
