LLM-судьи оказались ненадежными оценщиками качества ответов
Исследование показало, что LLM-судьи часто ошибаются в оценке ответов, награждая уверенные, но неверные ответы, что искажает результаты тестирования на 10-20%.
Обзоры новых релизов, сравнения моделей, анализ возможностей и ограничений современных LLM. Следите за развитием технологий искусственного интеллекта в области обработки естественного языка.
Исследование показало, что LLM-судьи часто ошибаются в оценке ответов, награждая уверенные, но неверные ответы, что искажает результаты тестирования на 10-20%.
Исследование 175000 диалогов с ИИ показывает: французы используют AI как партнера для обучения, а не просто инструмент автоматизации. Технические и образовательные запросы доминируют.
Amazon Bedrock интегрирует языковые модели с геоинформационными системами, автоматизируя пространственный анализ и улучшая принятие решений на основе геоданных.
Meta* заключила партнерство с Midjourney для лицензирования технологий генерации изображений и видео, усиливая конкуренцию с OpenAI и Google в области генеративного ИИ.
Студент создал ИИ на викторианских текстах, который неожиданно точно описал реальные протесты 1834 года в Лондоне, демонстрируя возможности небольших моделей в историческом анализе.
Исследование показало, что имитирующие опросы ИИ ошибаются на 23%. Модели систематически искажают мнения меньшинств, но стартапы продолжают их использовать.
Новый тест Spiral-Bench выявил радикальные различия в безопасности языковых моделей: от осторожного GPT-5 до рискованного Deepseek.
Amazon запустила Q Business — корпоративный ИИ-ассистент для анализа данных и автоматизации бизнес-процессов на платформе AWS.
Cohere выпустила Command A Reasoning — первую языковую модель с функцией логического вывода для корпоративных задач. Модель поддерживает 256k токенов и 23 языка.
Microsoft уточняет своё исследование о влиянии ИИ на профессии: полезность технологии не означает автоматического вытеснения рабочих мест. Анализ показывает ограничения методологии.