OpenAI представила бенчмарк IndQA для оценки понимания ИИ индийской культуры и языков
OpenAI представила бенчмарк IndQA для оценки понимания ИИ индийской культуры и языков. Проект создан с участием 261 эксперта и включает 2278 вопросов на 12 языках.
Обзоры новых релизов, сравнения моделей, анализ возможностей и ограничений современных LLM. Следите за развитием технологий искусственного интеллекта в области обработки естественного языка.
OpenAI представила бенчмарк IndQA для оценки понимания ИИ индийской культуры и языков. Проект создан с участием 261 эксперта и включает 2278 вопросов на 12 языках.
Clario внедрила генеративный ИИ на базе Amazon Bedrock для автоматизации настройки ПО клинических испытаний, сократив время и минимизировав ошибки ручного процесса.
AWS расширяет Amazon Bedrock трансрегиональным выводом для моделей Claude Sonnet 4.5 и Haiku 4.5 в Японии и Австралии, улучшая доступность AI-инфраструктуры.
Исследование Университета Чикаго показало, что детектор Pangram демонстрирует почти безупречные результаты в определении AI-текстов, значительно опережая конкурентов.
Новое исследование показывает, что языковые модели чаще сообщают о субъективном опыте, когда их способность к ролевой игре подавлена, что меняет представления о их внутренних состояниях.
Google и Reliance объявили о партнерстве: 18 месяцев бесплатного доступа к AI Pro для пользователей Jio. Стратегический ход в борьбе за индийский ИИ-рынок.
Исследование показало, что чат-боты эффективно опровергают конспирологические теории, используя проверенные факты и логические аргументы.
Исследователи MiniMax AI раскрыли три принципа создания качественных данных для обучения языковых моделей рассуждению: качество цепочек рассуждений, разнообразие распределения данных и масштабирование.
Amazon представила Web Bot Auth в Bedrock для решения проблемы капчи при веб-скрапинге ИИ-агентами. Технология позволяет автоматически идентифицировать ботов и предоставлять им доступ к контенту.
Ученые Anthropic доказали, что ИИ Claude может замечать изменения в своих внутренних процессах, но способность остается ненадежной и работает лишь в 20% случаев.