Глоссарий

Трансферное обучение

Раскройте возможности трансферного обучения, чтобы сэкономить время, повысить производительность ИИ и решать новые задачи на ограниченных данных с помощью предварительно обученных моделей.

Трансферное обучение - это метод машинного обучения (МОО), при котором модель, разработанная для конкретной задачи, повторно используется в качестве отправной точки для создания модели для второй, смежной задачи. Вместо того чтобы строить модель с нуля, что требует значительных данных и вычислительных ресурсов, трансферное обучение использует знания (признаки, паттерны и веса), полученные в исходной задаче, для улучшения обучения в целевой задаче. Этот подход особенно полезен, когда целевая задача имеет ограниченное количество помеченных данных, что значительно ускоряет процесс обучения и часто приводит к улучшению производительности по сравнению с обучением только на целевом наборе данных.

Как работает трансферное обучение

Основная идея трансферного обучения заключается в том, что модель, обученная на большом и общем наборе данных, таком как ImageNet для задач обработки изображений или массивный текстовый корпус для обработки естественного языка (NLP), приобретает общие характеристики, полезные для многих других смежных задач. Например, в компьютерном зрении (КЗ) начальные слои конволюционной нейронной сети (КНС) могут научиться определять края, текстуры и простые формы, которые являются фундаментальными визуальными элементами, применимыми в различных задачах распознавания изображений.

Применяя трансферное обучение, вы обычно начинаете с предварительно обученной модели. В зависимости от сходства между исходной и целевой задачами и размера целевого набора данных, вы можете:

  1. Используйте предварительно обученную модель в качестве экстрактора признаков: Заморозьте веса начальных слоев ( основы) и обучайте на новом наборе данных только финальные слои классификации или обнаружения. Это часто происходит, когда целевой набор данных невелик. Примером может служить использование YOLOv5 путем замораживания слоев.
  2. Тонкая настройка предварительно обученной модели: Разморозьте некоторые или все предварительно обученные слои и продолжите их обучение на новом наборе данных, как правило, с меньшей скоростью обучения. Это позволяет модели более точно адаптировать изученные характеристики к нюансам целевой задачи. Это распространенная стратегия, когда целевой набор данных больше. Тонкая настройка часто рассматривается как особый тип трансферного обучения.

Трансферное обучение в сравнении со смежными понятиями

  • Тонкая настройка: Тонкая настройка - это процесс размораживания и дальнейшего обучения весов предварительно обученной модели на новой задаче, хотя и тесно связанный с ней и часто используемый как взаимозаменяемый в некоторых контекстах. Это распространенный метод, используемый в рамках более широкой стратегии трансферного обучения.
  • Обучение с нуля: Это предполагает случайную инициализацию весов модели и обучение всей модели исключительно на целевом наборе данных. Это требует большого количества данных и вычислительных мощностей, которые трансферное обучение стремится сократить.
  • Zero-Shot Learning и Few-Shot Learning: Эти методы позволяют моделям выполнять задачи на очень небольшом количестве примеров из целевых классов или вообще без них, часто используя знания, полученные в ходе предварительного обучения, более сложными способами, чем стандартное обучение с переносом или тонкая настройка. В таких сценариях используются такие модели, как CLIP.

Применение в реальном мире

Трансферное обучение широко применяется в различных областях:

  • Компьютерное зрение:
  • Обработка естественного языка (NLP):
    • Анализ настроения: Тонкая настройка больших языковых моделей, таких как BERT или GPT, которые предварительно обучены на огромном количестве текстовых данных, для классификации настроения конкретных типов текстов (например, отзывов о товарах, сообщений в социальных сетях). В Hugging Face Transformers представлено множество таких предварительно обученных моделей.
    • Распознавание именованных сущностей (NER): Адаптация предварительно обученных языковых моделей для идентификации конкретных сущностей (например, имен, местоположений, организаций) в текстах, относящихся к конкретной области (например, в юридических документах, медицинских картах).
    • Чат-боты: Использование предварительно обученных языковых моделей в качестве основы для создания разговорных агентов, способных понимать и отвечать на запросы пользователей в конкретных областях.

Инструменты и фреймворки

Платформы, подобные Ultralytics HUB, упрощают процесс применения трансферного обучения, предоставляя предварительно обученные модели (например, Ultralytics YOLOv8 и YOLO11) и инструменты для легкого обучения на пользовательских наборах данных. Такие фреймворки, как PyTorch и TensorFlow, также предлагают обширную поддержку и учебные пособия по реализации рабочих процессов трансферного обучения. Для более глубокого теоретического понимания можно воспользоваться такими ресурсами, как обзор Stanford CS231n по трансферному обучению или академические обзоры, например"A Survey on Deep Transfer Learning".

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена