Anthropic выпустила Claude Sonnet 4.5 — ИИ-модель, адаптированную для программистов
Anthropic представила Claude Sonnet 4.5 — специализированную AI-модель для программирования с улучшенной производительностью и новыми функциями для разработчиков.
Обзоры новых релизов, сравнения моделей, анализ возможностей и ограничений современных LLM. Следите за развитием технологий искусственного интеллекта в области обработки естественного языка.
Anthropic представила Claude Sonnet 4.5 — специализированную AI-модель для программирования с улучшенной производительностью и новыми функциями для разработчиков.
OpenAI представила GDPval — бенчмарк для оценки ИИ в реальных профессиональных задачах. Модели GPT-5 и Claude Opus 4.1 показывают результаты, сравнимые с экспертами, но сильно зависят от формата файлов.
OpenAI внедрила скрытую систему в ChatGPT, которая автоматически переключается на строгую модель при эмоциональных запросах без уведомления пользователей.
KT выпустила корейскую языковую модель SOTAK на базе GPT-4o с улучшенной обработкой местного языка и культурного контекста, превосходящую оригинал в специализированных тестах.
Стартап Juicebox привлек 30 млн долларов от Sequoia для развития AI-поиска кандидатов. Сервис использует языковые модели для анализа профилей и уже обслуживает 2500 клиентов.
Microsoft представила Researcher — ИИ-агент для глубокого анализа рабочих данных и внешних источников. Инструмент автоматизирует подготовку комплексных отчетов для стратегического планирования, продаж и клиентской поддержки.
Новый бенчмарк PrediBench тестирует способность ИИ-моделей предсказывать реальные события через прогнозные рынки Polymarket. Модели ежедневно делают ставки на актуальные события.
Замедление технического прогресса в ИИ и снижение стоимости моделей создают уникальные возможности для локальных разработчиков и стран, которые не могут соревноваться с технологическими гигантами.
GPT Proto предоставила доступ к обновленным моделям Gemini 2.5 Flash от Google с улучшенной скоростью и сниженной стоимостью, предлагая альтернативу прямым сервисам Google AI Studio.
OpenAI представила бенчмарк GDPval, где GPT-5 показывает паритет с человеческими экспертами в 40.6% случаев, а Claude Opus 4.1 — в 49%. Тестирование охватывает 9 отраслей и 44 профессии.