ReasonScape: от бенчмарков к ландшафтам когнитивных способностей ИИ
Новая система оценки ИИ превращает плоские бенчмарки в трехмерные ландшафты мышления, используя спектральный анализ и параметрические тесты для изучения архитектуры рассуждений.
Hugging Face — GitHub для AI моделей. Крупнейшая платформа для ML сообщества. Хостинг моделей и датасетов.
Новая система оценки ИИ превращает плоские бенчмарки в трехмерные ландшафты мышления, используя спектральный анализ и параметрические тесты для изучения архитектуры рассуждений.
IBM представила семейство моделей Granite Embedding R2 для поиска информации с улучшенной производительностью и поддержкой длинных контекстов.
Treble Technologies и Hugging Face выпустили масштабный набор данных Treble10 с реалистичными акустическими симуляциями для улучшения распознавания речи в условиях помещений.
Hugging Face выпустила две эффективные модели с гибридной линейной архитектурой, сокращающие затраты на инференс в 10 раз по сравнению с плотными моделями.
Комбинация GRPO и RAG создает финансовые AI-модели, которые не только предсказывают цены акций, но и объясняют свои решения на основе исторических данных.
Hugging Face, Nvidia и партнеры запустили Open ASR Leaderboard — платформу для тестирования 60+ моделей распознавания речи. Результаты показывают компромисс между точностью и скоростью.
Hugging Face выпустила Mem-Agent — инструмент для создания ИИ-агентов с долговременной памятью, способных сохранять контекст между сессиями.
Обновление бенчмарка Gaia2 показывает: явное мышление улучшает агентские способности ИИ, но закрытые модели доминируют в поисковых задачах, а экономика токенов преподносит сюрпризы.
Hugging Face запустила RTEB — гибридный бенчмарк для оценки эмбеддинг-моделей с сочетанием открытых и приватных датасетов для измерения реальной способности к обобщению.
Hugging Face запустила VIBE Game — краудсорсинговую платформу для слепого сравнения ответов языковых моделей. Пользователи голосуют за лучшие ответы, не зная их источник.