AutoBench запускает третий раунд масштабного тестирования LLM
Третий раунд AutoBench протестировал 33 языковые модели с рекордными 300,000 оценок. Запущена платформа autobench.org для прозрачного benchmarking.
Anthropic — провайдер LLM и разработчик семейства моделей Claude, доступных через веб-чат Claude и публичный API.
Третий раунд AutoBench протестировал 33 языковые модели с рекордными 300,000 оценок. Запущена платформа autobench.org для прозрачного benchmarking.
Tyson Foods внедрила ИИ-ассистент на Claude 3.5 для семантического поиска, что позволило охватить 1 млн новых B2B-клиентов в пищевой индустрии.
DeepSeek представила гибридную модель V3.1 с двумя режимами работы, которая превзошла собственную модель рассуждений R1 в тестах при радикально низких ценах.
ByteDance выпустила open-source языковую модель SEED OSS 36B с контекстом 512к токенов, усилив конкуренцию на рынке открытых ИИ-решений.
Anthropic запустила корпоративную версию Claude с инструментами администрирования, но сохранила оплату за использование вместо безлимитных тарифов.
Anthropic включила терминальный инструмент Claude Code в корпоративные подписки, отвечая на спрос предприятий и усиливая конкуренцию с Google и GitHub.
Hugging Face интегрировал генерацию изображений в Claude через MCP-сервер. Доступны модели FLUX.1 Krea для фотореалистичных изображений и Qwen-Image для работы с текстом.
ИИ автоматизирует рутинные задачи, усложняя поиск первой работы, но выпускники с ИИ-навыками получают преимущество. Университеты адаптируют программы, создавая новые карьерные траектории.
Стартап Paradigm запустил электронные таблицы с ИИ-агентом в каждой ячейке, поддерживающие модели Anthropic, OpenAI и Gemini. Проект привлёк $7 млн инвестиций.
Anthropic обновила политику использования Claude, явно запретив разработку оружия массового поражения и усилив киберзащиту, одновременно смягчив правила для политического контента.