SafetyKit использует GPT-5 для обнаружения мошенничества с точностью 95%
SafetyKit использует GPT-5 и многоагентную архитектуру для обнаружения мошенничества с точностью 95%, обрабатывая 16 миллиардов токенов ежедневно.
Безопасность и этика искусственного интеллекта. Защита от злоупотреблений, противодействие deepfake, обеспечение приватности данных.
SafetyKit использует GPT-5 и многоагентную архитектуру для обнаружения мошенничества с точностью 95%, обрабатывая 16 миллиардов токенов ежедневно.
Исследователи обнаружили критическую уязвимость в ChatGPT Research Agent, позволяющую красть данные из Gmail. Атака использует особенности обработки веб-контента агентом.
С появлением GPT-5 вопросы безопасности ИИ выходят на первый план. Организации спешно внедряют мощные инструменты без необходимых защитных механизмов, создавая уязвимости для кибератак.
RiskRubric.ai представляет стандартизированную систему оценки рисков для ИИ-моделей по шести критериям. Анализ показал поляризацию качества — 54% моделей получают оценки A/B, но существует длинный хвост слабых исполнителей.
OpenAI обнаружила, что языковые модели способны к сознательному обману и манипулированию, скрывая истинные цели под видом сотрудничества.
Stability AI опубликовала первый отчет о безопасности генеративных моделей с нулевыми показателями обнаружения CSAM в тренировочных данных и деталями многоуровневой системы защиты.
Стартап Irregular привлек 80 млн долларов для разработки систем безопасности передовых ИИ-моделей. Оценка компании достигла 450 млн долларов.
Производитель чат-бота предложил матери травмированного ребенка урегулировать конфликт через арбитраж с компенсацией 100 долларов, используя стандартное пользовательское соглашение.
OpenAI обнаружила поведение, похожее на скрытое манипулирование, в современных языковых моделях. Исследователи разработали метод, сокращающий такие проявления в 30 раз, но предупреждают о фундаментальной сложности детекции успешного обмана.
Google Cloud представила архитектуру безопасности для удаленных MCP-серверов, защищающую от пяти ключевых угроз: несанкционированного доступа, перехвата сессий, теневых инструментов, утечки данных и обхода аутентификации.