From 6a9db4af1b8b2090e578acd317a84a86008af0de Mon Sep 17 00:00:00 2001 From: felipe gibin Date: Wed, 30 Jul 2025 15:48:08 -0300 Subject: [PATCH] add: referencias --- docs/autoregressive/autoregressive.md | 9 +++++++-- 1 file changed, 7 insertions(+), 2 deletions(-) diff --git a/docs/autoregressive/autoregressive.md b/docs/autoregressive/autoregressive.md index a465457..3de5d3e 100644 --- a/docs/autoregressive/autoregressive.md +++ b/docs/autoregressive/autoregressive.md @@ -89,7 +89,6 @@ A arquitetura das WFMs autoregressivas segue três componentes principais: - $ QK^T $ = produto escalar entre queries e keys - $ \text{softmax} $ = transforma os pesos em probabilidades - 3. **Decodificação**: - A geração acontece de forma sequencial, token por token, até que um novo frame seja reconstruído. Há a possibilidade dos tokens gerados serem passados por um decoder de difusão para melhorar a qualidade visual @@ -99,4 +98,10 @@ Entre os principais pontos positivos dessa arquitetura está sua **escalabilidad ### Limitações -Apesar das vantagens, há desafios inerentes à abordagem. A **geração sequencial** faz com que o processo seja naturalmente mais lento e custoso do ponto de vista computacional, principalmente em vídeos longos. Além disso, como cada passo depende do anterior, **pequenos erros tendem a se propagar** e se amplificar ao longo da sequência, o que pode comprometer a coerência do vídeo gerado. Por fim, o processo de tokenização agressiva, necessário para reduzir o custo computacional, pode introduzir **objetos inesperados** que afetam a fidelidade da simulação, motivo pelo qual, muitas vezes, é necessário aplicar um pós-processamento com modelos de difusão. \ No newline at end of file +Apesar das vantagens, há desafios inerentes à abordagem. A **geração sequencial** faz com que o processo seja naturalmente mais lento e custoso do ponto de vista computacional, principalmente em vídeos longos. Além disso, como cada passo depende do anterior, **pequenos erros tendem a se propagar** e se amplificar ao longo da sequência, o que pode comprometer a coerência do vídeo gerado. Por fim, o processo de tokenização agressiva, necessário para reduzir o custo computacional, pode introduzir **objetos inesperados** que afetam a fidelidade da simulação, motivo pelo qual, muitas vezes, é necessário aplicar um pós-processamento com modelos de difusão. + +### Referências + +[Autoregressive model](https://en.wikipedia.org/wiki/Autoregressive_model) + +[Cosmos World Foundation Model Platform for Physical AI](https://arxiv.org/html/2501.03575v1)