Featured image for tehnogiganty massovo narushayut avtorskie prava na dannye dlya obucheniya ii

Техногиганты массово нарушают авторские права на данные для обучения ИИ

Крупнейшие технологические компании создали систему, где они массово используют защищенный авторским правом контент для обучения своих ИИ-систем, одновременно запрещая другим делать то же самое с их платформами. Двухлетнее расследование Международной конфедерации музыкальных издателей (ICMP) и отдельный анализ The Atlantic выявили систематическую практику, которую в отрасли называют «цифровым лицемерием».

Крупнейшее в истории нарушение интеллектуальных прав

Согласно эксклюзивному отчету Billboard, ICMP утверждает, что Google, Microsoft, Meta*, OpenAI и X обучали свои системы на защищенной авторским правом музыке в огромных масштабах. Организация, собиравшая доказательства в течение двух лет, называет это «крупнейшим нарушением интеллектуальных прав в истории человечества».

Досье ICMP включает частные наборы данных, показывающие, как музыкальные приложения Udio и Suno сканируют YouTube, анализы, предполагающие, что Llama 3 от Meta* обучалась на текстах песен The Weeknd и Ed Sheeran, а также судебные документы по иску издателей против Anthropic.

Ирония ситуации в том, что те же компании, которые требуют свободного доступа к данным для «развития открытого интернета», создают максимально закрытые экосистемы вокруг своего контента. Это не вопрос технологии или инноваций — это чистая рыночная стратегия по установлению контроля над цифровым пространством.

Миллионы видео YouTube в тренировочных наборах

The Atlantic сообщает, что как минимум 15,8 миллионов видео YouTube с более чем 2 миллионов каналов были скачаны без разрешения и включены в по крайней мере 13 наборов данных. Почти миллион из них — обучающие ролики.

Хотя массовое скачивание нарушает условия использования YouTube, платформа практически ничего не делает для предотвращения этого, пишет The Atlantic. Специальный инструмент позволяет пользователям проверить, появляются ли конкретные видео в этих наборах.

Среди компаний, использующих эти данные для обучения:

  • Microsoft
  • Meta*
  • Amazon
  • Nvidia
  • Runway
  • ByteDance
  • Snap
  • Tencent

Новостные и образовательные каналы особенно уязвимы: BBC с как минимум 33 000 видео, TED с почти 50 000, плюс сотни тысяч от индивидуальных создателей.

Системное противоречие отрасли

Отчеты подчеркивают центральное противоречие: в то время как компании выступают за широкие исключения из авторского права для обучения ИИ, они сами запрещают сканирование своих платформ в своих условиях обслуживания.

ICMP указывает на положения в Facebook, YouTube, X, Google, OpenAI, Microsoft и Adobe, которые требуют предварительного письменного согласия для использования данных.

Расследования также опровергают распространенный аргумент индустрии о том, что раскрытие тренировочных данных слишком сложно. Данные, изученные ICMP, и утечки из компаний вроде Runway показывают обратное: сканированный контент тщательно маркируется метаданными, включая исполнителя, жанр и темп, что предполагает, что детальная прослеживаемость — такая, как предусмотрена AI Act ЕС — была бы возможна.

По материалам The Decoder

* Meta (признана экстремистской и запрещена в РФ)

Похожие записи