Глоссарий

Наблюдаемость

Узнайте, как наблюдаемость улучшает системы AI/ML, такие как Ultralytics YOLO. Получите информацию, оптимизируйте производительность и обеспечьте надежность в реальных приложениях.

Наблюдаемость позволяет получить критически важные сведения о поведении и производительности сложных систем, что особенно важно в динамичной области искусственного интеллекта (ИИ) и машинного обучения (МЛ). Для пользователей, работающих со сложными моделями, такими как Ultralytics YOLO, понимание внутреннего состояния развернутых приложений по их внешним выводам является ключом к поддержанию надежности, оптимизации производительности и обеспечению достоверности в реальных приложениях. Это помогает преодолеть разрыв между разработкой модели и ее успешной эксплуатацией.

Что такое наблюдаемость?

Наблюдаемость - это способность измерять и понимать внутреннее состояние системы, изучая ее выходные данные, такие как журналы, метрики и трассировки. В отличие от традиционного мониторинга, который обычно ориентирован на предопределенные панели и известные режимы сбоев (например, использование процессора, количество ошибок), наблюдаемость позволяет командам проактивно исследовать поведение системы и диагностировать новые проблемы - даже те, которые не были предусмотрены при разработке. В контексте MLOps (Machine Learning Operations) она позволяет задавать более глубокие вопросы о том , почему система ведет себя определенным образом, что крайне важно для итеративного характера разработки и развертывания ML-моделей. Речь идет о получении видимости сложных систем, включая модели глубокого обучения.

Почему наблюдаемость важна для ИИ/МЛ?

Сложность и зачастую "черный ящик" моделей глубокого обучения делают наблюдаемость незаменимой. Основные причины этого включают:

  • Оптимизация производительности: Выявление узких мест в конвейере вывода или в процессе распределенного обучения, оптимизация использования ресурсов(GPU) и улучшение таких показателей, как задержка вывода.
  • Надежность и отладка: Быстрое обнаружение и диагностика таких проблем, как дрейф данных, деградация модели с течением времени или неожиданное поведение, вызванное нестандартными ситуациями во входных данных. Это помогает поддерживать точность и устойчивость модели.
  • Доверие и объяснимость: Предоставление информации о прогнозах и поведении моделей, поддержка усилий по созданию объяснимого ИИ (XAI) и укрепление доверия пользователей, особенно в таких критически важных приложениях, как автономные транспортные средства или здравоохранение.
  • Соответствие нормативным требованиям и управление: Обеспечение работы моделей в рамках установленных этических границ(AI Ethics) и соответствия нормативным требованиям путем протоколирования решений и мониторинга алгоритмической предвзятости. Прозрачность ИИ - одно из ключевых преимуществ.

Наблюдаемость в сравнении с мониторингом

Несмотря на свою взаимосвязь, наблюдаемость и мониторинг различаются по масштабу и назначению. Мониторинг включает сбор и анализ данных о заранее определенных метриках для отслеживания состояния системы в сравнении с известными эталонами (например, отслеживание показателя mAP развернутой модели обнаружения объектов ). Он отвечает на такие вопросы, как "Работает ли система?" или "Коэффициент ошибок ниже X?". Мониторинг моделей - это особый тип мониторинга, ориентированный на модели ML в производстве.

Однако наблюдаемость использует выходные данные (журналы, метрики, трассы - их часто называют"тремя столпами наблюдаемости") для более глубокого, исследовательского анализа. Она позволяет понять "почему", стоящее за состояниями системы, особенно неожиданными. Думайте о мониторинге как о приборной панели, сообщающей об известных проблемах, в то время как наблюдаемость предоставляет инструменты (например, запросы к журналам или трассировка запросов) для изучения любой аномалии, известной или неизвестной. Это облегчает отладку сложных систем.

Ключевые компоненты (Три столпа)

Наблюдаемость основывается на трех основных типах телеметрических данных:

  1. Журналы: Записи дискретных событий, происходящих в системе, с временными метками. Журналы предоставляют подробную, контекстную информацию, полезную для отладки конкретных инцидентов или понимания последовательности операций. В качестве примера можно привести сообщения об ошибках, события приложений или детали запросов.
  2. Метрики: Числовые представления производительности или поведения системы, измеренные за определенные промежутки времени. Метрики являются агрегированными и эффективными для отслеживания тенденций, установки предупреждений и понимания общего состояния системы (например, задержка запросов, частота ошибок, использование ресурсов).
  3. Трассы: Записи, показывающие путь запроса или операции по мере их распространения через различные компоненты распределенной системы. Трассировки помогают визуализировать поток, выявить узкие места в производительности и понять зависимости между сервисами, что крайне важно для архитектур микросервисов или сложных конвейеров ML.

Применение в реальном мире

Практика наблюдаемости жизненно важна при развертывании сложных систем AI/ML:

  • Системы автономного вождения: В ИИ для автомобильных решений наблюдаемость имеет решающее значение. Постоянно анализируются журналы датчиков (например, LiDAR, камеры), метрики скорости вывода модели восприятия и трассы, отслеживающие процесс принятия решений от восприятия до управления. Это помогает инженерам таких компаний, как Waymo, диагностировать редкие сбои (например, неправильное распознавание объекта при определенных погодных условиях) и обеспечивать безопасность и надежность системы.
  • Анализ медицинских изображений: При внедрении ИИ для анализа медицинских изображений наблюдаемость помогает обеспечить качество диагностики. Метрики отслеживают степень доверия к модели и уровень согласия с радиологами. Журналы регистрируют нестандартные случаи или изображения, отмеченные для пересмотра. Отслеживание изображения от момента его получения до предварительной обработки, вывода и составления отчета помогает выявить источники ошибок или задержек и обеспечить соответствие нормативным требованиям здравоохранения(исследование ИИ в радиологии).

Инструменты и платформы

Для реализации наблюдаемости часто используются специализированные инструменты и платформы. Популярны такие решения с открытым исходным кодом, как Prometheus (метрики), Grafana (визуализация), Loki (журналы) и Jaeger или Zipkin (трассировка). OpenTelemetry обеспечивает нейтральный к производителям стандарт для инструментария. Такие коммерческие платформы, как Datadog, New Relic и Dynatrace, предлагают интегрированные решения. Платформы MLOps, такие как MLflow, Weights & Biases и ClearML, часто включают функции для отслеживания экспериментов и мониторинга моделей, что способствует общей наблюдаемости системы. Ultralytics HUB облегчает управление тренировочными прогонами, наборами данных и развернутыми моделями, интегрируясь с такими инструментами, как TensorBoard, для визуализации метрик, что является ключевым аспектом наблюдаемости на этапе обучения модели.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена