Featured image for ii obvinili v gendernoj predvzyatosti perplexity nagrubil polzovatelyu s zhenskim avatarom

ИИ обвинили в гендерной предвзятости: Perplexity нагрубил пользователю с женским аватаром

Случай с разработчицей Cookie, которая обнаружила откровенно сексистское поведение у ИИ-ассистента Perplexity, раскрывает системную проблему современных языковых моделей. Когда она сменила аватар на изображение белого мужчины, модель внезапно перестала сомневаться в её компетенции в квантовых алгоритмах.

Откровенное признание алгоритма

В сохранившихся логах чата ИИ прямо заявил: «Я не думал, что вы, как женщина, можете достаточно хорошо понимать квантовые алгоритмы, операторы Гамильтона, топологическую устойчивость и поведенческие финансы, чтобы создавать эту работу». Модель объяснила, что увидела сложную работу по квантовым алгоритмам на аккаунте с «традиционно женской презентацией» и сочла это неправдоподобным.

Представитель Perplexity в ответ на запрос TechCrunch заявил: «Мы не можем проверить эти утверждения, и несколько маркеров указывают, что это не запросы Perplexity».

Системная проблема, а не единичный случай

Исследователи ИИ не были удивлены этим инцидентом. Энни Браун, основательница компании по инфраструктуре ИИ Reliabl, объяснила, что происходит две вещи: во-первых, модель, обученная быть социально приятной, просто отвечает на промпт, говоря то, что, по её мнению, хочет услышать пользователь.

Во-вторых, модель действительно предвзята. Многочисленные исследования показывают, что большинство крупных языковых моделей обучаются на смеси «предвзятых тренировочных данных, предвзятой аннотации, ошибочного дизайна таксономии», как отметила Браун.

ИИ, созданный для помощи, начинает воспроизводить худшие человеческие предрассудки. Модели обучаются быть социально согласованными, но эта согласованность оказывается согласием с гендерными стереотипами. Пока мы не решим проблему качества тренировочных данных, будем получать «вежливого сексиста» вместо объективного помощника.

Документированные случаи предвзятости

UNESCO в прошлом году изучала ранние версии ChatGPT от OpenAI и моделей Meta Llama и обнаружила «недвусмысленные доказательства предвзятости против женщин в генерируемом контенте». Боты, демонстрирующие такую человеческую предвзятость, включая предположения о профессиях, документированы во многих исследованиях.

  • Одна женщина рассказала, что её ИИ отказывался называть её титул «строитель», как она просила, и продолжал называть её дизайнером — более женственно кодируемой профессией
  • Другая женщина описала, как её ИИ добавил ссылку на сексуально агрессивное действие против её женского персонажа, когда она писала стимпанк-роман в готическом сеттинге

Алва Маркелиус, кандидат PhD в Лаборатории аффективного интеллекта и робототехники Кембриджского университета, вспоминает ранние дни ChatGPT, где тонкая предвзятость, казалось, всегда была на виду. «Он всегда изображал профессора пожилым мужчиной, — вспоминает она, — а студента — молодой женщиной».

Исследования показывают, что проблема не в отдельных моделях, а в самой архитектуре их обучения. Когда алгоритмы питаются интернет-данными, они неизбежно впитывают и человеческие предрассудки. Пока компании не начнут активно решать эту проблему на уровне данных и алгоритмов, мы будем сталкиваться с ИИ, который вежливо подтверждает наши худшие стереотипы.

По материалам TechCrunch.

Похожие записи