AutoBench запускает третий раунд масштабного тестирования LLM
Третий раунд AutoBench протестировал 33 языковые модели с рекордными 300,000 оценок. Запущена платформа autobench.org для прозрачного benchmarking.
Обзоры новых релизов, сравнения моделей, анализ возможностей и ограничений современных LLM. Следите за развитием технологий искусственного интеллекта в области обработки естественного языка.
Третий раунд AutoBench протестировал 33 языковые модели с рекордными 300,000 оценок. Запущена платформа autobench.org для прозрачного benchmarking.
Google заявил о минимальном экологическом следе Gemini, но эксперты обвиняют компанию в манипуляции данными и сокрытии полной картины потребления ресурсов ИИ-системами.
DeepSeek представила гибридную модель V3.1 с двумя режимами работы, которая превзошла собственную модель рассуждений R1 в тестах при радикально низких ценах.
Google впервые раскрыла данные об энергопотреблении ИИ-системы Gemini. Модели потребляют 10-15% энергии дата-центров компании, но эффективность улучшилась на 40%.
ByteDance выпустила open-source языковую модель SEED OSS 36B с контекстом 512к токенов, усилив конкуренцию на рынке открытых ИИ-решений.
Anthropic запустила корпоративную версию Claude с инструментами администрирования, но сохранила оплату за использование вместо безлимитных тарифов.
Google обновил Gemini Live: ассистент теперь визуально указывает на объекты через камеру, управляет приложениями и говорит с эмоциями.
Heroku интегрировала GPT-4 в свою AI-платформу, упрощая разработчикам доступ к передовым языковым моделям без сложной инфраструктуры.
Японская компания MIXI внедрила ChatGPT Enterprise для всех сотрудников за 45 дней, достигнув сокращения рабочих часов на 90% в некоторых проектах и создав более 1600 кастомных GPTs.
OpenAI не показала Sora 2 в анонсе GPT-5, но следующее поколение генератора видео может стать самым значительным прорывом в области AI-видео с улучшенным физическим реализмом и когерентностью.