Featured image for na hugging face teper mozhno redaktirovat datasety napryamuyu na platforme

На Hugging Face теперь можно редактировать датасеты напрямую на платформе

Платформа Hugging Face запустила революционную возможность — редактирование датасетов напрямую через веб-интерфейс без необходимости скачивать, изменять и загружать файлы обратно. Это фундаментально меняет рабочие процессы в области машинного обучения.

Коллаборативная работа с данными

Наиболее интересным аспектом новой функциональности является возможность совместного редактирования датасетов. Несколько участников команды могут вносить изменения в один и тот же датасет, проверять правки и совместно улучшать качество данных — все с полным контролем версий и отслеживаемостью изменений.

Требования к использованию

В текущей версии редактирование датасетов доступно при соблюдении следующих условий:

  • Датасет содержит один CSV-файл (поддержка других форматов появится позже)
  • У пользователя есть права на запись (личные датасеты или датасеты организаций с соответствующими правами)
  • Столбцы содержат текстовые данные (тип string)

Практический пример: исправление ошибок в датасете

Рассмотрим ситуацию, когда команда опубликовала датасет для анализа тональности текста, и пользователи обнаружили ошибки. Вот как их можно исправить:

  1. Перейдите на страницу датасета
  2. Откройте Data Studio для анализа данных. Например, на скриншоте ниже видна ошибка в распределении меток — некоторые значения обозначены как negativ вместо negative
    Интерфейс Data Studio показывает распределение значений данных
    Источник: huggingface.co

    Распределение значений показывает три категории вместо ожидаемых двух

    Отфильтрованное представление с исправленной опечаткой в наборе данных
    Источник: huggingface.co

    Фильтрация подтверждает наличие опечатки в названиях меток

  3. При наличии прав на запись появится кнопка Toggle Edit Mode. При нажатии на нее можно редактировать отдельные ячейки в текстовых столбцах, как показано на скриншоте:
    Интерфейс режима редактирования датасетов на платформе Hugging Face
    Источник: huggingface.co

    Редактирование отдельных ячеек в датасете

  4. После внесения изменений нажмите Commit для сохранения правок. Это создаст коммит в репозитории датасета с возможностью добавления описательного сообщения:
    Интерфейс коммита, показывающий внесённые изменения в набор данных
    Источник: huggingface.co

    Готовность к коммиту двух изменений

    Окно диалога для ввода сообщения коммита
    Источник: huggingface.co

    Добавление описательного сообщения коммита

  5. Результат изменений сохраняется в истории датасета, что позволяет отслеживать все действия по курации: Изменения версионируются в истории датасета

Итеративный процесс улучшения

После первого раунда правок можно продолжать улучшать датасет. Например, при обнаружении неправильно размеченных примеров (например, positive вместо negative) достаточно отредактировать соответствующие ячейки и закоммитить изменения с новым сообщением: Несколько примеров имеют неправильные метки Исправление неправильно размеченных примеров Коммит исправлений меток Примененные изменения видны в системе версионирования датасета

Это именно тот функционал, которого не хватало сообществу ML-инженеров годами. Вечная проблема с исправлением опечаток и ошибок в датасетах наконец-то получает элегантное решение. Интересно, сколько моделей было обучено на датасетах с подобными «negativ» вместо «negative» — теперь такие артефакты можно исправлять в пару кликов. Жду, когда добавят поддержку JSON и других форматов.

Перспективы развития

Команда Hugging Face активно работает над дальнейшим развитием функционала курации данных. Особенный интерес представляет интеграция AI-моделей для ускорения и улучшения процесса работы с данными напрямую в браузере.

По материалам Hugging Face

Похожие записи