Глоссарий

Длительная кратковременная память (LSTM)

Узнайте, как сети с долговременной кратковременной памятью (LSTM) справляются с последовательными данными, преодолевают ограничения RNN и обеспечивают работу таких задач ИИ, как НЛП и прогнозирование.

Длительная кратковременная память (LSTM) - это специализированный тип архитектуры рекуррентной нейронной сети (RNN), разработанный для преодоления ограничений традиционных RNN в обучении зависимостям на дальних расстояниях. Представленные Сеппом Хохрайтером и Юргеном Шмидхубером в 1997 году, LSTM особенно эффективны при обработке последовательностей данных, таких как текст, речь и временные ряды, где контекст из предыдущих частей последовательности имеет решающее значение для понимания последующих частей. Эта способность делает их краеугольной технологией в различных приложениях Deep Learning (DL).

Как работают LSTM

Традиционные RNN борются с проблемой исчезающего градиента, когда информация с ранних этапов последовательности исчезает по мере распространения по сети, что затрудняет изучение зависимостей на больших интервалах времени. LSTM решают эту проблему с помощью уникальной структуры, включающей ячейки памяти и затворы.

Основным компонентом является ячейка памяти, которая действует как конвейер, позволяя информации проходить через сеть в относительно неизменном виде. LSTM используют три основных "ворота" для регулирования информации, хранящейся в ячейке памяти:

  1. Ворота забывания: Решает, какую информацию из состояния ячейки следует выбросить.
  2. Входные ворота: Решает, какую новую информацию сохранить в состоянии ячейки.
  3. Выходной гейт: Решает, какую часть состояния ячейки выводить.

Эти ворота, реализованные с помощью функций активации, таких как сигмоид и тангенс, учат, какую информацию важно сохранить или отбросить на каждом временном шаге, позволяя сети сохранять релевантный контекст в течение длительного времени.

Применение в реальном мире

LSTM успешно применяются во многих областях, требующих моделирования последовательностей:

  • Обработка естественного языка (NLP): LSTM отлично справляются с такими задачами, как машинный перевод (например, перевод длинных предложений с сохранением смысла), анализ настроений (понимание мнений, выраженных в тексте) и языковое моделирование. Например, LSTM может обрабатывать абзац текста, чтобы понять общее настроение, запоминая ключевые фразы из начала, которые влияют на смысл в конце.
  • Распознавание речи: Они используются для преобразования устной речи в текст путем моделирования временных зависимостей в аудиосигналах. Система на основе LSTM может распознавать слова и фразы, учитывая последовательность звуков во времени, что повышает точность по сравнению с моделями, не учитывающими дальний контекст. В системах распознавания речи Google исторически использовались LSTM.
  • Анализ временных рядов: LSTM применяются для прогнозирования будущих значений на основе исторических данных, таких как цены на акции, погодные условия или потребление энергии. Способность запоминать долгосрочные тенденции делает их пригодными для сложного прогностического моделирования.
  • Анализ видео: LSTM могут обрабатывать последовательности видеокадров, чтобы понять действия или события, происходящие с течением времени, что способствует созданию таких приложений, как распознавание действий.

LSTM по сравнению с другими архитектурами

Несмотря на свою мощь, LSTM являются частью более широкого семейства моделей последовательности:

  • РНС: LSTM - это тип RNN, специально разработанный для того, чтобы избежать проблем с кратковременной памятью, характерных для простых RNN.
  • Рекуррентные блоки с управлением (Gated Recurrent Units, GRU): GRU - это разновидность LSTM с более простой архитектурой (меньшее количество вентилей). Они часто работают сопоставимо с LSTM в определенных задачах, но при этом менее требовательны к вычислительным ресурсам.
  • Трансформеры: Трансформаторы, представленные позже, полагаются на механизмы внимания, а не на рекуррентность. Они в значительной степени превзошли LSTM по современной производительности для многих задач НЛП, особенно в больших языковых моделях (LLM), таких как GPT-4. Архитектуры типа Longformer еще больше расширяют возможности трансформаторов для очень длинных последовательностей.

Реализация и инструменты

LSTM могут быть легко реализованы с помощью популярных фреймворков глубокого обучения, таких как PyTorch (см. документацию по PyTorch LSTM) и TensorFlow (см. документацию по TensorFlow LSTM). Хотя Ultralytics в основном фокусируется на моделях компьютерного зрения (CV), таких как Ultralytics YOLO, для таких задач, как обнаружение объектов и сегментация экземпляров, понимание моделей последовательности является ценным, особенно в связи с исследованиями, направленными на объединение NLP и CV для таких задач, как понимание видео или создание подписей к изображениям. Вы можете подробнее изучить различные модели и концепции ML в документации Ultralytics. Управление обучением и развертыванием различных моделей может быть упрощено с помощью таких платформ, как Ultralytics HUB. В основополагающей статье о LSTM, написанной Хохрейтером и Шмидхубером, приводятся оригинальные технические подробности. Такие ресурсы, как DeepLearning.AI, предлагают курсы, посвященные моделям последовательности, включая LSTM.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена