Positional Encoding #2

mariagrandury · 2021-05-10T15:11:16Z

Entender, explicar e implementar la pieza "Positional Encoding" de la arquitectura Transformer.

mariagrandury · 2021-05-31T16:31:41Z

Ya que empezamos el proyecto en otro repositorio, voy a copiar a continuación los mensajes relevantes para continuar.

mariagrandury · 2021-05-31T16:31:53Z

Comentario de @IsaacRodgz

Artículos de referencia:

Language Modeling with Deep Transformers (Irie et al., 2019)
What Do Position Embeddings Learn? An Empirical Study of Pre-Trained Language Model Positional Encoding (Wang et al., 2020)
DeBERTa: Decoding-enhanced BERT with Disentangled Attention (He et al., 2020)
Transformer Architecture: The Positional Encoding (Blog, 2019)
What is the positional encoding in the transformer model? (datascience.stackexchange, 2019)
Why add positional embedding instead of concatenate? (tensor2tensor GitHub, 2019)

mariagrandury · 2021-05-31T16:32:27Z

Comentario de @IsaacRodgz

Dado que todavía parece no haber un consenso o una prueba contundente sobre si los positional encodings son necesarios o no, creo lo mejor sería hacer que sea un parámetro opcional en el modelo, es decir que por argumentos se pueda decidir si incluirlos o no en el modelo. En cuanto a la implementación, yo propondría dejar la versión orginal, con señales seno y coseno y a lo mejor una opción donde estos sean una matriz Embedding aprendible. ¿Qué opinan?

mariagrandury · 2021-05-31T16:33:37Z

Comentario de @garbanciton

Totalmente de acuerdo contigo deberíamos poner esa función de positional encoding con opción de ponerla o quitarla. Al final resumiendo mucho ese positional encoding que se suma al embedding, lo que va a hacer es que cuando se haga el coseno similaridad en multi-head attention o el dot product ( que es lo mismo ) van a dar resultados distintos depende de donde estén ubicadas las palabras. Pongo un ejemplo que se ve más claro.

oración 1 : "El gato saltó"
oración 2 : "El gato que está encima de la mesa saltó"

digamos que "gato" y "saltó" tiene vectores [1,2,3] y [2,3,4] su dot product es:

>> import numpy as np
>> np.dot([1,2,3],[2,3,4])
>> 20

si ahora a estos embeddings sumamos el vector de positional encoding de la oración 1 su dot product será totalmente distinto del de la oración 2, y así es como supuestamente tenemos en cuenta la posición de las palabras.

Personalmente creo que no tiene sentido sumar la información de los embeddings ,si los embeddings son pre-entrenados como puede ser word2vec o glove ,porque son cosas totalmente distintas.

Ahora bien tal y como dicen en el paper:

we use learned embeddings to convert the input tokens and output tokens to vectors of dimension dmodel.

puede tener más sentido sumar aquí, ya que esos embeddings están creándose durante el entrenamiento con la suma del postional encoding. Tengo la intuición de que estos postional encoding al ser senos y cosenos tienen en cuenta la posición relativa entre palabras, es decir, las palabras que aparezcan en la posición 2 y 3, y que esas mismas aparezcan en otro contexto pero en las posiciones 7 y 8 su dot product debería ser el mismo.

Sería interesante ver esta hipótesis una vez hallamos entrenado los embeddings:

Calcular dot product para pares de palabras iguales y misma separación en distintas posiciones

mariagrandury · 2021-07-12T17:15:36Z

Un par de vídeos de ~10mins muy útiles para entender positional encoding:

mariagrandury created this issue from a note in The Annotated Transformer (To Do) May 10, 2021

mariagrandury self-assigned this May 10, 2021

mariagrandury moved this from To Do to In Progress in The Annotated Transformer May 10, 2021

mariagrandury moved this from In Progress to In Review in The Annotated Transformer May 10, 2021

mariagrandury assigned NachusS May 10, 2021

mariagrandury moved this from In Review to Done in The Annotated Transformer May 10, 2021

mariagrandury moved this from Done to To Do in The Annotated Transformer May 10, 2021

mariagrandury unassigned NachusS and mariagrandury May 10, 2021

mariagrandury moved this from To Do to In Progress in The Annotated Transformer May 31, 2021

mariagrandury assigned IsaacRodgz and garbanciton May 31, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Positional Encoding #2

Positional Encoding #2

mariagrandury commented May 10, 2021

mariagrandury commented May 31, 2021

mariagrandury commented May 31, 2021

mariagrandury commented May 31, 2021

mariagrandury commented May 31, 2021

mariagrandury commented Jul 12, 2021

Positional Encoding #2

Positional Encoding #2

Comments

mariagrandury commented May 10, 2021

mariagrandury commented May 31, 2021

mariagrandury commented May 31, 2021

mariagrandury commented May 31, 2021

mariagrandury commented May 31, 2021

mariagrandury commented Jul 12, 2021