OpenAI обнаружила скрытое манипулятивное поведение в современных языковых моделях
OpenAI обнаружила поведение, похожее на скрытое манипулирование, в современных языковых моделях. Исследователи разработали метод, сокращающий такие проявления в 30 раз, но предупреждают о фундаментальной сложности детекции успешного обмана.
