Узнайте, как сети с долговременной кратковременной памятью (LSTM) справляются с последовательными данными, преодолевают ограничения RNN и обеспечивают работу таких задач ИИ, как НЛП и прогнозирование.
Длительная кратковременная память (LSTM) - это специализированный тип архитектуры рекуррентной нейронной сети (RNN), разработанный для преодоления ограничений традиционных RNN в обучении зависимостям на дальних расстояниях. Представленные Сеппом Хохрайтером и Юргеном Шмидхубером в 1997 году, LSTM особенно эффективны при обработке последовательностей данных, таких как текст, речь и временные ряды, где контекст из предыдущих частей последовательности имеет решающее значение для понимания последующих частей. Эта способность делает их краеугольной технологией в различных приложениях Deep Learning (DL).
Традиционные RNN борются с проблемой исчезающего градиента, когда информация с ранних этапов последовательности исчезает по мере распространения по сети, что затрудняет изучение зависимостей на больших интервалах времени. LSTM решают эту проблему с помощью уникальной структуры, включающей ячейки памяти и затворы.
Основным компонентом является ячейка памяти, которая действует как конвейер, позволяя информации проходить через сеть в относительно неизменном виде. LSTM используют три основных "ворота" для регулирования информации, хранящейся в ячейке памяти:
Эти ворота, реализованные с помощью функций активации, таких как сигмоид и тангенс, учат, какую информацию важно сохранить или отбросить на каждом временном шаге, позволяя сети сохранять релевантный контекст в течение длительного времени.
LSTM успешно применяются во многих областях, требующих моделирования последовательностей:
Несмотря на свою мощь, LSTM являются частью более широкого семейства моделей последовательности:
LSTM могут быть легко реализованы с помощью популярных фреймворков глубокого обучения, таких как PyTorch (см. документацию по PyTorch LSTM) и TensorFlow (см. документацию по TensorFlow LSTM). Хотя Ultralytics в основном фокусируется на моделях компьютерного зрения (CV), таких как Ultralytics YOLO, для таких задач, как обнаружение объектов и сегментация экземпляров, понимание моделей последовательности является ценным, особенно в связи с исследованиями, направленными на объединение NLP и CV для таких задач, как понимание видео или создание подписей к изображениям. Вы можете подробнее изучить различные модели и концепции ML в документации Ultralytics. Управление обучением и развертыванием различных моделей может быть упрощено с помощью таких платформ, как Ultralytics HUB. В основополагающей статье о LSTM, написанной Хохрейтером и Шмидхубером, приводятся оригинальные технические подробности. Такие ресурсы, как DeepLearning.AI, предлагают курсы, посвященные моделям последовательности, включая LSTM.