На Hugging Face теперь можно редактировать датасеты напрямую на платформе
Платформа Hugging Face запустила революционную возможность — редактирование датасетов напрямую через веб-интерфейс без необходимости скачивать, изменять и загружать файлы обратно. Это фундаментально меняет рабочие процессы в области машинного обучения.
Коллаборативная работа с данными
Наиболее интересным аспектом новой функциональности является возможность совместного редактирования датасетов. Несколько участников команды могут вносить изменения в один и тот же датасет, проверять правки и совместно улучшать качество данных — все с полным контролем версий и отслеживаемостью изменений.
Требования к использованию
В текущей версии редактирование датасетов доступно при соблюдении следующих условий:
- Датасет содержит один CSV-файл (поддержка других форматов появится позже)
- У пользователя есть права на запись (личные датасеты или датасеты организаций с соответствующими правами)
- Столбцы содержат текстовые данные (тип string)
Практический пример: исправление ошибок в датасете
Рассмотрим ситуацию, когда команда опубликовала датасет для анализа тональности текста, и пользователи обнаружили ошибки. Вот как их можно исправить:
- Перейдите на страницу датасета
- Откройте Data Studio для анализа данных. Например, на скриншоте ниже видна ошибка в распределении меток — некоторые значения обозначены как negativ вместо negative

Источник: huggingface.co Распределение значений показывает три категории вместо ожидаемых двух

Источник: huggingface.co Фильтрация подтверждает наличие опечатки в названиях меток
- При наличии прав на запись появится кнопка Toggle Edit Mode. При нажатии на нее можно редактировать отдельные ячейки в текстовых столбцах, как показано на скриншоте:

Источник: huggingface.co Редактирование отдельных ячеек в датасете
- После внесения изменений нажмите Commit для сохранения правок. Это создаст коммит в репозитории датасета с возможностью добавления описательного сообщения:

Источник: huggingface.co Готовность к коммиту двух изменений

Источник: huggingface.co Добавление описательного сообщения коммита
- Результат изменений сохраняется в истории датасета, что позволяет отслеживать все действия по курации: Изменения версионируются в истории датасета
Итеративный процесс улучшения
После первого раунда правок можно продолжать улучшать датасет. Например, при обнаружении неправильно размеченных примеров (например, positive вместо negative) достаточно отредактировать соответствующие ячейки и закоммитить изменения с новым сообщением: Несколько примеров имеют неправильные метки Исправление неправильно размеченных примеров Коммит исправлений меток Примененные изменения видны в системе версионирования датасета
Это именно тот функционал, которого не хватало сообществу ML-инженеров годами. Вечная проблема с исправлением опечаток и ошибок в датасетах наконец-то получает элегантное решение. Интересно, сколько моделей было обучено на датасетах с подобными «negativ» вместо «negative» — теперь такие артефакты можно исправлять в пару кликов. Жду, когда добавят поддержку JSON и других форматов.
Перспективы развития
Команда Hugging Face активно работает над дальнейшим развитием функционала курации данных. Особенный интерес представляет интеграция AI-моделей для ускорения и улучшения процесса работы с данными напрямую в браузере.
По материалам Hugging Face
