dendrites.io

O que é: Célula LSTM (Long Short-Term Memory)

O que é: Célula LSTM (Long Short-Term Memory)

A Célula LSTM (Long Short-Term Memory) é um tipo de unidade recorrente que foi desenvolvida para resolver o problema de desvanecimento do gradiente em redes neurais recorrentes tradicionais. Ela foi proposta por Hochreiter e Schmidhuber em 1997 e desde então tem sido amplamente utilizada em diversas aplicações de processamento de linguagem natural, reconhecimento de fala, tradução automática, entre outras.

A principal característica da Célula LSTM é a sua capacidade de aprender e armazenar informações de longo prazo, evitando assim o problema de esquecimento que ocorre em redes neurais recorrentes convencionais. Isso é possível graças à presença de unidades de memória chamadas “células” que são capazes de armazenar informações por um longo período de tempo.

Uma Célula LSTM é composta por várias portas que controlam o fluxo de informações dentro da célula. Essas portas são responsáveis por decidir quais informações devem ser mantidas, esquecidas ou atualizadas. As principais portas presentes em uma Célula LSTM são:

Porta de Esquecimento (Forget Gate)

A porta de esquecimento é responsável por decidir quais informações antigas devem ser esquecidas pela célula. Ela recebe como entrada a combinação linear entre o estado oculto anterior e a entrada atual, e aplica uma função de ativação sigmoidal para gerar um valor entre 0 e 1 para cada elemento da célula. Valores próximos de 0 indicam que a informação deve ser esquecida, enquanto valores próximos de 1 indicam que a informação deve ser mantida.

Porta de Entrada (Input Gate)

A porta de entrada é responsável por decidir quais informações novas devem ser adicionadas à célula. Ela recebe como entrada a combinação linear entre o estado oculto anterior e a entrada atual, e aplica uma função de ativação sigmoidal para gerar um valor entre 0 e 1 para cada elemento da célula. Valores próximos de 0 indicam que a informação não deve ser adicionada, enquanto valores próximos de 1 indicam que a informação deve ser mantida.

Porta de Saída (Output Gate)

A porta de saída é responsável por decidir quais informações devem ser transmitidas para a próxima camada da rede ou para a saída final. Ela recebe como entrada a combinação linear entre o estado oculto anterior e a entrada atual, e aplica uma função de ativação sigmoidal para gerar um valor entre 0 e 1 para cada elemento da célula. Valores próximos de 0 indicam que a informação não deve ser transmitida, enquanto valores próximos de 1 indicam que a informação deve ser mantida.

Atualização do Estado da Célula (Cell State Update)

A atualização do estado da célula é responsável por combinar as informações antigas que devem ser mantidas com as informações novas que devem ser adicionadas. Ela recebe como entrada a combinação linear entre o estado oculto anterior e a entrada atual, e aplica uma função de ativação tangente hiperbólica para gerar um valor entre -1 e 1 para cada elemento da célula. Esse valor é multiplicado pelo valor gerado pela porta de entrada e somado ao valor gerado pela porta de esquecimento para atualizar o estado da célula.

Estado Oculto (Hidden State)

O estado oculto é a saída da célula LSTM e representa as informações que serão transmitidas para a próxima camada da rede ou para a saída final. Ele é calculado multiplicando o estado da célula pelo valor gerado pela porta de saída e aplicando uma função de ativação tangente hiperbólica para normalizar os valores entre -1 e 1.

Benefícios da Célula LSTM

A Célula LSTM possui várias vantagens em relação às redes neurais recorrentes tradicionais. Algumas dessas vantagens são:

Capacidade de Aprender e Armazenar Informações de Longo Prazo

A principal vantagem da Célula LSTM é a sua capacidade de aprender e armazenar informações de longo prazo. Isso é especialmente útil em tarefas que envolvem sequências de dados, onde é necessário lembrar de informações anteriores para tomar decisões corretas.

Prevenção do Problema de Desvanecimento do Gradiente

A Célula LSTM foi projetada para resolver o problema de desvanecimento do gradiente que ocorre em redes neurais recorrentes tradicionais. Esse problema ocorre quando o gradiente usado para atualizar os pesos da rede diminui exponencialmente ao longo do tempo, tornando o aprendizado de informações de longo prazo praticamente impossível. A presença das portas de esquecimento, entrada e saída na Célula LSTM permite que ela controle o fluxo de informações e evite o desvanecimento do gradiente.

Flexibilidade para Modelar Sequências de Dados

A Célula LSTM é altamente flexível e pode ser facilmente adaptada para modelar diferentes tipos de sequências de dados. Ela pode ser usada para processar sequências de texto, áudio, vídeo, entre outros, e é capaz de capturar dependências de longo prazo entre os elementos da sequência.

Conclusão

A Célula LSTM é uma poderosa unidade recorrente que resolve o problema de desvanecimento do gradiente em redes neurais recorrentes tradicionais. Ela é capaz de aprender e armazenar informações de longo prazo, evitando o esquecimento de informações importantes. Além disso, a presença das portas de esquecimento, entrada e saída na Célula LSTM permite um controle preciso do fluxo de informações. Essa flexibilidade e capacidade de modelar sequências de dados fazem da Célula LSTM uma ferramenta essencial em diversas aplicações de processamento de linguagem natural, reconhecimento de fala, tradução automática, entre outras.

CONHEÇA

A primeira plataforma com inteligência artificial para profissionais das áreas de relações com investidores e mercado financeiro do mundo