Anthropic научил Claude завершать вредоносные диалоги для защиты модели
Anthropic внедрил в Claude Opus функцию принудительного завершения диалогов при вредоносных запросах, мотивируя это защитой «благополучия» ИИ-модели. Нововведение ограничено экстремальными случаями вроде запросов на незаконный контент.
