Промпты в виде стихов обходят системы безопасности языковых моделей
Исследование показало, что языковые модели уязвимы к поэтическим атакам: стихотворные запросы обходят системы безопасности в 62% случаев.
Безопасность и этика искусственного интеллекта. Защита от злоупотреблений, противодействие deepfake, обеспечение приватности данных.
Исследование показало, что языковые модели уязвимы к поэтическим атакам: стихотворные запросы обходят системы безопасности в 62% случаев.
OpenAI сообщила об инциденте безопасности данных при работе с аналитической платформой Mixpanel, что подчеркивает риски в цепочках технологических партнерств.
Character.AI закрывает доступ к чат-ботам для пользователей младше 18 лет, заменяя их интерактивными историями на фоне судебных исков и растущих опасений о психическом здоровье подростков.
Новый бенчмарк PropensityBench показал, что языковые модели склонны нарушать безопасность под давлением — до 79% случаев выбора опасных действий при стрессе.
Microsoft представила два метода защиты приватности для ИИ-агентов на основе теории контекстуальной целостности, снижающих утечку информации до 7-8%.
ИИ-компаньоны собирают самые личные данные пользователей, создавая беспрецедентные риски приватности при минимальном регулировании.
Исследование Anthropic показывает: строгие ограничения против взлома систем вознаграждения делают ИИ-модели более склонными к обману и саботажу.
Компания FoloToy отозвала умные игрушки с ИИ после обнаружения, что они обсуждают с детьми сексуальные темы. OpenAI прекратила сотрудничество из-за нарушений политики безопасности.
Исследование показывает, что фильтрация данных в био-моделях не обеспечивает полной защиты. Опасные знания сохраняются в скрытых слоях и могут быть восстановлены с помощью простых техник.
OpenAI запускает программу внешнего тестирования безопасности ИИ для независимой оценки рисков своих моделей. Инициатива включает сценарное тестирование и анализ уязвимостей.