Featured image for openai poluchil iskov na 10 mlrd za ispolzovanie novostej dlya obucheniya modelej

OpenAI получил исков на $10 млрд за использование новостей для обучения моделей

Девять американских региональных газет подали масштабный иск о нарушении авторских прав против OpenAI и Microsoft, требуя возмещения ущерба, который может превысить 10 миллиардов долларов. Одновременно федеральный суд обязал OpenAI предоставить внутреннюю переписку о наборах данных с книгами, которые, как утверждается, были получены из пиратской библиотеки.

Скриншот из искового заявления: сравнение вывода ИИ и оригинальных газетных статей

Основное обвинение: модели OpenAI и сервисы Microsoft вроде Copilot были обучены на новостных статьях без лицензии и могут воспроизводить их почти дословно. Иск был подан в Нью-Йорке группой изданий, включая Boston Herald, Hartford Courant, San Diego Union-Tribune и Los Angeles Daily News.

Дело основано на конкретных доказательствах: случаях, когда варианты ChatGPT воспроизводят репортажи истцов практически слово в слово. Издатели представили сравнения, показывающие, что вывод модели совпадает с оригинальными статьями с незначительными различиями. Они утверждают, что это не сбои, а доказательство того, что модели «запомнили» данные и выплевывают их обратно по запросу.

В аналогичном споре с New York Times OpenAI заявляла, что газета манипулировала моделью с помощью специальных промптов, чтобы та воспроизвела контент. Компания утверждала, что запоминание — это «баг», а не предназначенная функция.

Суды по всему миру еще не пришли к единому мнению. Мюнхенский суд недавно постановил, что ИИ нарушает авторские права именно потому, что запоминает и воспроизводит тексты песен. С другой стороны, британский судья отклонил иск против модели генерации изображений Stable Diffusion, аргументируя это трансформативностью технологии.

Помимо простого копирования, издатели обвиняют OpenAI в нарушении Digital Millennium Copyright Act. Они утверждают, что OpenAI систематически удаляла информацию об управлении авторскими правами — такие как авторские строки, заголовки и ссылки на условия использования. Предполагаемая стратегия: очистить данные, представить вывод как сгенерированный текст и обмануть пользователей, заставив думать, что его можно использовать свободно.

Обучение ИИ угрожает бизнес-моделям новостей

Истцы утверждают, что они часто являются единственным источником местных новостей в своих регионах, инвестируя значительные средства в репортажи, финансируемые рекламой и подписками.

Для защиты этих инвестиций они используют платные стены и условия использования, которые явно запрещают сканирование. Эти пункты специально запрещают использование контента для обучения языковых моделей или для retrieval-augmented generation (RAG). Контент строго предназначен для личного, некоммерческого использования.

В иске утверждается, что OpenAI и Microsoft просто проигнорировали эти правила. Компании предположительно сканировали сайты, удаляли уведомления об авторских правах и использовали текст без лицензии как для обучения, так и для прямых результатов поиска. Microsoft является целью не только как поставщик инфраструктуры, но и как со-разработчик моделей и прямой бенефициар предполагаемого воровства.

Истцы требуют возмещения ущерба, превышающего 10 миллиардов долларов, ссылаясь на законы США, которые позволяют взыскивать до 150 000 долларов за произведение за умышленное нарушение и до 25 000 долларов за удаление информации об авторских правах. Они утверждают, что поскольку более качественные наборы данных чаще семплировались во время обучения, контент профессиональной прессы оказал непропорциональное влияние на модели.

Они также хотят крайней меры: уничтожения всех моделей GPT и обучающих наборов, содержащих их работы, требование, которое New York Times также выдвигала в конце 2023 года.

Загадка удаленных книжных наборов данных

Дело не только в газетах. OpenAI сталкивается с продолжающимися судебными разбирательствами от авторов и издателей из-за книг, использованных для обучения её ИИ. Спор сосредоточен на внутренних наборах данных под названием «Books1» и «Books2», которые, как утверждается, содержат огромное количество электронных книг, загруженных из пиратской библиотеки Library Genesis (LibGen).

Ирония в том, что компании, которые строят будущее на интеллекте, оказались в прошлом веке по части закупки контента. Тренировка на пиратских библиотеках и игнорирование paywall — это не баг, а фича бизнес-модели, которая надеялась, что масштаб и сложность технологий станут щитом от юристов. Суды, однако, медленно, но верно начинают раскалывать этот щит. Если требование об уничтожении моделей когда-либо будет удовлетворено, это поставит крест не только на OpenAI, но и на всей парадигме обучения LLM на всем интернете. Выход один: платить за данные, как это уже делает Anthropic, или создавать собственный контент с нуля. Дорого, но честно.

Источник новости: The Decoder

Похожие записи