Исследование: проекционные атаки могут обходить защитные механизмы LLM
Исследователи обнаружили метод обхода систем безопасности языковых моделей через манипуляцию проекционными матрицами, что ставит под вопрос эффективность текущих подходов к защите ИИ.
