Двойные стандарты техногигантов в использовании данных для ИИ

Крупнейшие технологические компании создали систему, где они массово используют защищенный авторским правом контент для обучения своих ИИ-систем, одновременно запрещая другим делать то же самое с их платформами. Двухлетнее расследование Международной конфедерации музыкальных издателей (ICMP) и отдельный анализ The Atlantic выявили систематическую практику, которую в отрасли называют «цифровым лицемерием».

Крупнейшее в истории нарушение интеллектуальных прав

Согласно эксклюзивному отчету Billboard, ICMP утверждает, что Google, Microsoft, Meta*, OpenAI и X обучали свои системы на защищенной авторским правом музыке в огромных масштабах. Организация, собиравшая доказательства в течение двух лет, называет это «крупнейшим нарушением интеллектуальных прав в истории человечества».

Досье ICMP включает частные наборы данных, показывающие, как музыкальные приложения Udio и Suno сканируют YouTube, анализы, предполагающие, что Llama 3 от Meta* обучалась на текстах песен The Weeknd и Ed Sheeran, а также судебные документы по иску издателей против Anthropic.

Ирония ситуации в том, что те же компании, которые требуют свободного доступа к данным для «развития открытого интернета», создают максимально закрытые экосистемы вокруг своего контента. Это не вопрос технологии или инноваций — это чистая рыночная стратегия по установлению контроля над цифровым пространством.

Миллионы видео YouTube в тренировочных наборах

The Atlantic сообщает, что как минимум 15,8 миллионов видео YouTube с более чем 2 миллионов каналов были скачаны без разрешения и включены в по крайней мере 13 наборов данных. Почти миллион из них — обучающие ролики.

Хотя массовое скачивание нарушает условия использования YouTube, платформа практически ничего не делает для предотвращения этого, пишет The Atlantic. Специальный инструмент позволяет пользователям проверить, появляются ли конкретные видео в этих наборах.

Среди компаний, использующих эти данные для обучения:

Microsoft
Meta*
Amazon
Nvidia
Runway
ByteDance
Snap
Tencent

Новостные и образовательные каналы особенно уязвимы: BBC с как минимум 33 000 видео, TED с почти 50 000, плюс сотни тысяч от индивидуальных создателей.

Системное противоречие отрасли

Отчеты подчеркивают центральное противоречие: в то время как компании выступают за широкие исключения из авторского права для обучения ИИ, они сами запрещают сканирование своих платформ в своих условиях обслуживания.

ICMP указывает на положения в Facebook, YouTube, X, Google, OpenAI, Microsoft и Adobe, которые требуют предварительного письменного согласия для использования данных.

Расследования также опровергают распространенный аргумент индустрии о том, что раскрытие тренировочных данных слишком сложно. Данные, изученные ICMP, и утечки из компаний вроде Runway показывают обратное: сканированный контент тщательно маркируется метаданными, включая исполнителя, жанр и темп, что предполагает, что детальная прослеживаемость — такая, как предусмотрена AI Act ЕС — была бы возможна.

По материалам The Decoder

* Meta (признана экстремистской и запрещена в РФ)

Техногиганты массово нарушают авторские права на данные для обучения ИИ

Крупнейшее в истории нарушение интеллектуальных прав

Миллионы видео YouTube в тренировочных наборах

Системное противоречие отрасли

OpenAI представила бенчмарк IndQA для оценки понимания ИИ индийской культуры и языков

Google Research представила интерактивный подход к генерации изображений с помощью ИИ

Manus интегрирует персональный ИИ-ассистент в Microsoft Agent 365

Стартап с командой из бывших сотрудников OpenAI борется со случайностью в ответах ИИ-моделей

Экс-инженер Google привлек $8 млн на AI-агентов для групповых чатов

Google бросает вызов Nvidia в войне ИИ-чипов, начав продавать свои TPU

Крупнейшее в истории нарушение интеллектуальных прав

Миллионы видео YouTube в тренировочных наборах

Системное противоречие отрасли

Похожие записи