Featured image for neskolko startapov razrabatyvayut proekty monetizatsii proprietarnyh dannyh dlya obucheniya llm

Несколько стартапов разрабатывают проекты монетизации проприетарных данных для обучения LLM

Эпоха «бесплатного» интернета как бездонного источника для обучения нейросетей подошла к концу. Публичные ресурсы закрываются от парсинга, а разработчики больших языковых моделей (LLM) столкнулись с дефицитом качественных текстов. Как сообщает издание qz.com, индустрия переходит к освоению закрытых архивов: от персональных цифровых следов до специфических данных с дронов и корпоративных хранилищ.

Для качественного скачка ИИ-системам недостаточно открытых данных из Wikipedia или Reddit. Будущее отрасли зависит от проприетарной информации, которая никогда не находилась в открытом доступе. Это требует создания новых рынков и инфраструктуры для извлечения ценности из того, что раньше считалось «цифровым мусором» или узкоспециализированным контентом.

Личные данные как новый актив

Пользовательский контент в Google Docs, история прослушиваний в Spotify и метаданные социальных сетей — это колоссальный массив информации, юридически принадлежащий пользователям. Стартап Vana разрабатывает платформу, позволяющую индивидам объединять свои данные в пулы для обучения ИИ, создавая альтернативу общедоступным датасетам.

Масштаб потенциала впечатляет: если 100 миллионов человек предоставят экспорт своих данных всего с пяти платформ, объем выборки составит около 450 триллионов токенов. Это в 30 раз больше, чем набор данных Common Crawl, на котором обучалась Llama 3 от Meta. Такой подход может привести к созданию по-настоящему персонализированных ИИ-ассистентов.

«Если вы паркуете машину на стоянке, владелец стоянки не становится собственником вашего автомобиля. Тот же принцип применим к данным: вы владеете ими, даже если они хранятся на чужом сервере», — говорит Анна Казлаускас, CEO Vana

Геопространственные модели и физический мир

Для развития робототехники и автономного транспорта требуются сверхточные карты, которые невозможно получить из обычных спутниковых снимков. Компания Spexi решает эту проблему через краудсорсинг: более 10 000 операторов дронов выполняют стандартизированные полеты на высоте 80 метров, оцифровывая города с беспрецедентным разрешением.

За последние полтора года проект охватил более 6 миллионов акров в 300 городах Северной Америки. Эти данные критически важны для таких компаний, как Niantic, создающих геопространственные модели. Основным вызовом здесь остается динамичность мира: дороги и здания меняются быстрее, чем модели успевают переобучаться.

Попытка скормить нейросетям терабайты накопленного корпоративного «силоса» без жесткой гигиены данных — это путь к созданию дорогостоящего генератора галлюцинаций. Рынок наконец-то избавляется от иллюзий, что LLM магическим образом структурируют хаос из легаси-систем. Без внятной семантики и контроля происхождения данных корпоративный ИИ останется лишь игрушкой для презентаций, неспособной отличить пожизненную ценность клиента от случайной транзакции.

Инвентаризация корпоративного хаоса

Крупный бизнес годами накапливал данные в «озерах» (data lakes), надеясь на их будущую полезность. Однако на практике эти массивы часто оказываются фрагментированными и непригодными для обучения без глубокой предобработки. По словам Сачина Дхармапурикара из The Modern Data Company, руководители часто сталкиваются с «проклятием ChatGPT», ожидая мгновенных инсайтов от необработанных архивов.

Для внедрения ИИ в бизнес-процессы корпорациям необходимо решить четыре фундаментальные задачи: обеспечить масштабируемое качество данных, прослеживаемость их происхождения (lineage), управление для предотвращения галлюцинаций и создание контекстных метаданных. Пока данные заперты в изолированных отделах продаж или производства, синергия, необходимая для продвинутого ИИ, остается недостижимой.

Похожие записи