diff --git a/docs/autoregressive/autoregressive.md b/docs/autoregressive/autoregressive.md index c6eaef0..2696200 100644 --- a/docs/autoregressive/autoregressive.md +++ b/docs/autoregressive/autoregressive.md @@ -88,7 +88,7 @@ A arquitetura das WFMs autoregressivas segue três componentes principais: - $QK^T$ = produto escalar entre queries e keys - $\text{softmax}$ = transforma os pesos em probabilidades -1. **Decodificação**: +3. **Decodificação**: - A geração acontece de forma sequencial, token por token, até que um novo frame seja reconstruído. Há a possibilidade dos tokens gerados serem passados por um decoder de difusão para melhorar a qualidade visual ### Vantagens da Abordagem @@ -98,6 +98,11 @@ Outro aspecto importante é a **flexibilidade**: o modelo pode lidar com diferen ### Limitações -Apesar das vantagens, há desafios inerentes à abordagem. A **geração sequencial** faz com que o processo seja naturalmente mais lento e custoso do ponto de vista computacional, principalmente em vídeos longos. -Além disso, como cada passo depende do anterior, **pequenos erros tendem a se propagar** e se amplificar ao longo da sequência, o que pode comprometer a coerência do vídeo gerado. -Por fim, o processo de tokenização agressiva, necessário para reduzir o custo computacional, pode introduzir **objetos inesperados** que afetam a fidelidade da simulação, motivo pelo qual, muitas vezes, é necessário aplicar um pós-processamento com modelos de difusão. +Apesar das vantagens, há desafios inerentes à abordagem. A **geração sequencial** faz com que o processo seja naturalmente mais lento e custoso do ponto de vista computacional, principalmente em vídeos longos. Além disso, como cada passo depende do anterior, **pequenos erros tendem a se propagar** e se amplificar ao longo da sequência, o que pode comprometer a coerência do vídeo gerado. Por fim, o processo de tokenização agressiva, necessário para reduzir o custo computacional, pode introduzir **objetos inesperados** que afetam a fidelidade da simulação, motivo pelo qual, muitas vezes, é necessário aplicar um pós-processamento com modelos de difusão. + +### Referências + +[Autoregressive model](https://en.wikipedia.org/wiki/Autoregressive_model) + +[Cosmos World Foundation Model Platform for Physical AI](https://arxiv.org/html/2501.03575v1) +