Глоссарий

Наблюдаемость

Узнайте, как наблюдаемость улучшает системы AI/ML, такие как Ultralytics YOLO. Получите информацию, оптимизируйте производительность и обеспечьте надежность в реальных приложениях.

Наблюдаемость позволяет получить критически важные сведения о поведении и производительности сложных систем, что особенно важно в динамичной области искусственного интеллекта (ИИ) и машинного обучения (МЛ). Для пользователей, работающих со сложными моделями, такими как Ultralytics YOLO, понимание внутреннего состояния развернутых приложений по их внешним выводам является ключом к поддержанию надежности, оптимизации производительности и обеспечению достоверности в реальных приложениях. Это помогает преодолеть разрыв между разработкой модели и ее успешной эксплуатацией.

Что такое наблюдаемость?

Наблюдаемость - это способность измерять и понимать внутреннее состояние системы, изучая ее выходные данные, такие как журналы, метрики и трассировки. В отличие от традиционного мониторинга, который обычно ориентирован на предопределенные панели и известные режимы сбоев (например, использование процессора, количество ошибок), наблюдаемость позволяет командам проактивно исследовать поведение системы и диагностировать новые проблемы - даже те, которые не были предусмотрены при разработке. В контексте MLOps (Machine Learning Operations) она позволяет задавать более глубокие вопросы о том , почему система ведет себя определенным образом, что крайне важно для итеративного характера разработки и развертывания ML-моделей. Речь идет о получении видимости сложных систем, включая модели глубокого обучения.

Почему наблюдаемость важна для ИИ/МЛ?

Сложность и зачастую "черный ящик" моделей глубокого обучения делают наблюдаемость незаменимой. Основные причины этого включают:

Оптимизация производительности: Выявление узких мест в конвейере вывода или в процессе распределенного обучения, оптимизация использования ресурсов(GPU) и улучшение таких показателей, как задержка вывода.
Надежность и отладка: Быстрое обнаружение и диагностика таких проблем, как дрейф данных, деградация модели с течением времени или неожиданное поведение, вызванное нестандартными ситуациями во входных данных. Это помогает поддерживать точность и устойчивость модели.
Доверие и объяснимость: Предоставление информации о прогнозах и поведении моделей, поддержка усилий по созданию объяснимого ИИ (XAI) и укрепление доверия пользователей, особенно в таких критически важных приложениях, как автономные транспортные средства или здравоохранение.
Соответствие нормативным требованиям и управление: Обеспечение работы моделей в рамках установленных этических границ(AI Ethics) и соответствия нормативным требованиям путем протоколирования решений и мониторинга алгоритмической предвзятости. Прозрачность ИИ - одно из ключевых преимуществ.

Наблюдаемость в сравнении с мониторингом

Несмотря на свою взаимосвязь, наблюдаемость и мониторинг различаются по масштабу и назначению. Мониторинг включает сбор и анализ данных о заранее определенных метриках для отслеживания состояния системы в сравнении с известными эталонами (например, отслеживание показателя mAP развернутой модели обнаружения объектов ). Он отвечает на такие вопросы, как "Работает ли система?" или "Коэффициент ошибок ниже X?". Мониторинг моделей - это особый тип мониторинга, ориентированный на модели ML в производстве.

Однако наблюдаемость использует выходные данные (журналы, метрики, трассы - их часто называют"тремя столпами наблюдаемости") для более глубокого, исследовательского анализа. Она позволяет понять "почему", стоящее за состояниями системы, особенно неожиданными. Думайте о мониторинге как о приборной панели, сообщающей об известных проблемах, в то время как наблюдаемость предоставляет инструменты (например, запросы к журналам или трассировка запросов) для изучения любой аномалии, известной или неизвестной. Это облегчает отладку сложных систем.

Ключевые компоненты (Три столпа)

Наблюдаемость основывается на трех основных типах телеметрических данных:

Журналы: Записи дискретных событий, происходящих в системе, с временными метками. Журналы предоставляют подробную, контекстную информацию, полезную для отладки конкретных инцидентов или понимания последовательности операций. В качестве примера можно привести сообщения об ошибках, события приложений или детали запросов.
Метрики: Числовые представления производительности или поведения системы, измеренные за определенные промежутки времени. Метрики являются агрегированными и эффективными для отслеживания тенденций, установки предупреждений и понимания общего состояния системы (например, задержка запросов, частота ошибок, использование ресурсов).
Трассы: Записи, показывающие путь запроса или операции по мере их распространения через различные компоненты распределенной системы. Трассировки помогают визуализировать поток, выявить узкие места в производительности и понять зависимости между сервисами, что крайне важно для архитектур микросервисов или сложных конвейеров ML.

Применение в реальном мире

Практика наблюдаемости жизненно важна при развертывании сложных систем AI/ML:

Системы автономного вождения: В ИИ для автомобильных решений наблюдаемость имеет решающее значение. Постоянно анализируются журналы датчиков (например, LiDAR, камеры), метрики скорости вывода модели восприятия и трассы, отслеживающие процесс принятия решений от восприятия до управления. Это помогает инженерам таких компаний, как Waymo, диагностировать редкие сбои (например, неправильное распознавание объекта при определенных погодных условиях) и обеспечивать безопасность и надежность системы.
Анализ медицинских изображений: При внедрении ИИ для анализа медицинских изображений наблюдаемость помогает обеспечить качество диагностики. Метрики отслеживают степень доверия к модели и уровень согласия с радиологами. Журналы регистрируют нестандартные случаи или изображения, отмеченные для пересмотра. Отслеживание изображения от момента его получения до предварительной обработки, вывода и составления отчета помогает выявить источники ошибок или задержек и обеспечить соответствие нормативным требованиям здравоохранения(исследование ИИ в радиологии).

Инструменты и платформы

Для реализации наблюдаемости часто используются специализированные инструменты и платформы. Популярны такие решения с открытым исходным кодом, как Prometheus (метрики), Grafana (визуализация), Loki (журналы) и Jaeger или Zipkin (трассировка). OpenTelemetry обеспечивает нейтральный к производителям стандарт для инструментария. Такие коммерческие платформы, как Datadog, New Relic и Dynatrace, предлагают интегрированные решения. Платформы MLOps, такие как MLflow, Weights & Biases и ClearML, часто включают функции для отслеживания экспериментов и мониторинга моделей, что способствует общей наблюдаемости системы. Ultralytics HUB облегчает управление тренировочными прогонами, наборами данных и развернутыми моделями, интегрируясь с такими инструментами, как TensorBoard, для визуализации метрик, что является ключевым аспектом наблюдаемости на этапе обучения модели.

Наблюдаемость

Гибкое решение для корпоративного лицензирования, обеспечивающее инновации

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Простое обучение моделям YOLO с помощью Ultralytics HUB

Что такое наблюдаемость?

Почему наблюдаемость важна для ИИ/МЛ?

Наблюдаемость в сравнении с мониторингом

Ключевые компоненты (Три столпа)

Применение в реальном мире

Инструменты и платформы

Подробнее в этой категории

Изучение Google Beam: 3D-видеоконференции нового поколения

Экспорт моделей Ultralytics YOLO11 в формат модели NCNN

Основные моменты выступления Ultralytics на CVPR 2025

Присоединяйтесь к сообществу Ultralytics