Глоссарий

SiLU (Sigmoid Linear Unit)

Узнайте, как функция активации SiLU (Swish) повышает производительность глубокого обучения в таких задачах ИИ, как обнаружение объектов и НЛП.

SiLU (Sigmoid Linear Unit), также известная как функция Swish, - это функция активации, используемая в моделях глубокого обучения (DL), в частности в нейронных сетях (NN). Она была предложена исследователями из Google и завоевала популярность благодаря своей эффективности в улучшении производительности модели по сравнению с традиционными функциями активации, такими как ReLU и Sigmoid. SiLU ценится за свою гладкость и немонотонность, что может помочь в градиентном потоке и оптимизации модели. Для более широкого понимания см. общий обзор функций активации.

Как работает SiLU

SiLU определяется как произведение входного и Сигмовидный функция, применяемая к входу. По сути, SiLU(x) = x * sigmoid(x). Такая формулировка позволяет SiLU действовать как саморегулирующийся механизм, где сигмоидная составляющая определяет степень, в которой линейный вход x проходит. Когда выход сигмоида близок к 1, вход проходит через него почти без изменений (аналогично ReLU для положительных значений), а когда он близок к 0, выход подавляется в сторону нуля. В отличие от ReLU, SiLU является гладкой и немонотонной (она может уменьшаться даже при увеличении входного сигнала), свойства, вытекающие из ее Детали сигмовидной функции компонент. Концепция была подробно изложена в оригинальная бумага Swish.

Преимущества SiLU

SiLU обладает рядом преимуществ, которые способствуют его эффективности в моделях глубокого обучения:

Гладкость: В отличие от ReLU, SiLU - гладкая функция, то есть ее производная непрерывна. Эта гладкость может быть полезна для алгоритмов градиентной оптимизации во время обратного распространения, что приводит к более стабильному обучению.
Немонотонность: Форма функции, которая слегка проседает при отрицательных входных сигналах, а затем поднимается к нулю, может помочь сети представлять более сложные паттерны.
Избегание исчезающих градиентов: В то время как сигмоидальные функции могут значительно страдать от проблемы исчезающего градиента в глубоких сетях, SiLU смягчает эту проблему, особенно для положительных входов, где она ведет себя линейно, подобно ReLU.
Улучшение производительности: Эмпирические исследования показали, что замена ReLU на SiLU может привести к улучшению точности моделей в различных задачах и наборах данных, особенно в более глубоких архитектурах.

Сравнение с другими функциями активации

SiLU отличается от других распространенных функций активации:

ReLU: ReLU проще с вычислительной точки зрения (max(0, x)) и линейна для положительных значений, но страдает от проблемы "умирающего ReLU", когда нейроны могут стать неактивными для отрицательных входов. См. Объяснение ReLU. SiLU является гладким и избегает этой проблемы благодаря ненулевому выходу для отрицательных значений.
Сигмоид: Сигмоид отображает входные данные в диапазон от 0 до 1, но страдает от насыщенности и исчезающих градиентов, что делает его менее подходящим для скрытых слоев в глубоких сетях по сравнению с SiLU.
Leaky ReLU: Leaky ReLU решает проблему умирающего ReLU, позволяя небольшой ненулевой градиент для отрицательных входов. SiLU предлагает другой, более гладкий профиль.
GELU: GELU (Gaussian Error Linear Unit) - это еще одна гладкая функция активации, которая часто работает аналогично SiLU. SiLU обычно считается немного более простой в вычислениях, чем GELU.

Применение SiLU

SiLU универсален и успешно применяется в различных областях, где используются модели глубокого обучения:

Обнаружение объектов: SiLU часто используется в архитектурах современных моделей обнаружения объектов, включая некоторые версии, связанные с Ultralytics YOLO. Например, точное обнаружение автомобилей и пешеходов очень важно для систем автономного вождения.
Классификация изображений: Она показала высокую производительность в конволюционных нейронных сетях (CNN) для классификации изображений, способствуя повышению точности на эталонных наборах данных. В качестве примера можно привести классификацию различных типов тканей при анализе медицинских изображений для помощи в диагностике заболеваний.
Обработка естественного языка (NLP): SiLU также можно встретить в моделях NLP, улучшая производительность в таких задачах, как классификация текстов и других приложениях NLP.
Общее компьютерное зрение (КВ): Его свойства делают его сильным кандидатом для решения различных задач компьютерного зрения, помимо обнаружения и классификации.

Реализация

SiLU легко доступен в основных фреймворках глубокого обучения:

PyTorch: Выполнено как torch.nn.SiLU, с официальным Документация по PyTorch для SiLU в наличии.
TensorFlow: Доступно как tf.keras.activations.swish или tf.keras.activations.silu, задокументированный в Документация по TensorFlow для SiLU.

Платформы, подобные Ultralytics HUB, поддерживают обучение моделей и изучение различных вариантов развертывания моделей с использованием продвинутых компонентов, таких как SiLU. Продолжающиеся исследования и ресурсы таких организаций, как DeepLearning.AI, помогают практикам эффективно использовать такие функции.

SiLU (Sigmoid Linear Unit)

Гибкое решение для корпоративного лицензирования, обеспечивающее инновации

Обучайте модели искусственного интеллекта за считанные секунды с помощью Ultralytics YOLO

Простое обучение моделям YOLO с помощью Ultralytics HUB

Как работает SiLU

Преимущества SiLU

Сравнение с другими функциями активации

Применение SiLU

Реализация

Подробнее в этой категории

Что такое эволюционный алгоритм? Краткое руководство

Изучение Google Beam: 3D-видеоконференции нового поколения

Экспорт моделей Ultralytics YOLO11 в формат модели NCNN

Присоединяйтесь к сообществу Ultralytics