Глоссарий

Дрейф данных

Узнайте о типах, причинах и решениях проблемы дрейфа данных в машинном обучении. Узнайте, как обнаружить и устранить дрейф данных для создания надежных моделей ИИ.

Дрейф данных - распространенная проблема в машинном обучении (ML), когда статистические свойства входных данных, используемых для обучения модели, со временем меняются по сравнению с данными, с которыми модель сталкивается в процессе производства или вывода. Это расхождение означает, что модели, изученные в процессе обучения, могут перестать точно представлять реальную обстановку, что приводит к снижению производительности и точности. Понимание и управление дрейфом данных необходимо для поддержания надежности систем искусственного интеллекта (ИИ), особенно тех, которые работают в динамичных условиях, например, автономных транспортных средств или финансовых прогнозов.

Почему дрейф данных имеет значение

Когда происходит дрейф данных, модели, обученные на исторических данных, становятся менее эффективными при составлении прогнозов на основе новых, невидимых данных. Такое снижение производительности может привести к ошибочному принятию решений, снижению ценности бизнеса или критическим сбоям в ответственных приложениях. Например, модель, обученная для обнаружения объектов, может начать пропускать их, если условия освещения или угол обзора камеры значительно отличаются от данных обучения. Непрерывный мониторинг модели очень важен для раннего обнаружения дрейфа и выполнения корректирующих действий, таких как переобучение или обновление модели с помощью таких платформ, как Ultralytics HUB, для сохранения производительности. Игнорирование дрейфа данных может быстро привести к устареванию даже таких сложных моделей, как Ultralytics YOLO.

Причины дрейфа данных

Дрейф данных может быть вызван несколькими факторами, в том числе:

Изменения в реальном мире: Внешние события, сезонность (например, праздничные покупки) или изменения в поведении пользователей могут изменить распределение данных.
Изменения в источнике данных: Изменения в методах сбора данных, калибровке датчиков или конвейерах обработки данных могут внести дрейф. Например, изменение аппаратного обеспечения камеры для системы компьютерного зрения.
Изменения характеристик: С течением времени актуальность или определение входных характеристик могут меняться.
Проблемы с качеством данных: Такие проблемы, как пропущенные значения, выбросы или ошибки, допущенные при сборе или обработке данных, могут накапливаться и вызывать дрейф. Поддержание качества данных имеет первостепенное значение.
Изменения в вышестоящей модели: Если модель опирается на выходные данные другой модели, изменения в вышестоящей модели могут вызвать дрейф данных в нижестоящей модели.