Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Tarea 1] Duda cálculo del vector de relevancia #9

Open
BFFV opened this issue Sep 12, 2021 · 4 comments
Open

[Tarea 1] Duda cálculo del vector de relevancia #9

BFFV opened this issue Sep 12, 2021 · 4 comments
Labels
Tarea 1 Pregunta acerca de la tarea 1

Comments

@BFFV
Copy link

BFFV commented Sep 12, 2021

Hola!
Al momento de calcular el vector de relevancia en la evaluación de las recomendaciones de los modelos,
¿en qué orden se revisa la pertenencia?

a) Revisar por cada ítem recomendado si es que este está entre los relevantes para el usuario en el set de validación
b) Revisar por cada ítem relevante para el usuario en el set de validación si es que este está dentro de los ítems recomendados

@jfacuse jfacuse added the Tarea 1 Pregunta acerca de la tarea 1 label Sep 12, 2021
@alfa-labarca
Copy link
Contributor

Hola!

Para las mayorías de las métricas utilizadas y vistas en clases, se toma una lista de recomendación y esta se evalúa buscando si los ítems recomendados son "hits". Es decir, correspondería a la opción a) que diste.

Saludos!

@BFFV
Copy link
Author

BFFV commented Sep 12, 2021

Gracias!

@bmurtagh01
Copy link

Yo tenía una duda sobre la implementación a).
En nuestro caso de la tarea si hacemos, por ejemplo, 10 recomendaciónes para un usuario pero solo tenemos 2 items de validación ocurre que aunque tenga esos dos items dentro de mis recomendaciones, son 2/10 hits por lo tanto mis métricas no son buenas, aún cuando tengo hits para cada dato del set de validación. Esto dado a que mis items de validación son mucho menores a lo que estoy recomendando.

Vector relevancia = [0, 0, 1, 0, 0, 0, 0, 0,1 ,0] (formato A) ó [1,1] (formato B)

@alfa-labarca
Copy link
Contributor

@bmurtagh01 Correcto, es por esto que existen distintas métricas de evaluación en la práctica, por ejemplo, el ejemplo que tú diste tendría buen valor de recall pero mal valor de accuracy. Para esta actividad se piden métricas más similares a la accuracy y como tal es posible que ocurran casos como el tuyo.

En este caso, ejemplos como el tuyo pueden dar malos resultados a pesar de que en la práctica el algoritmo funcione bien, pero para el caso de la tarea, todos los resultados serán evaluados con las mismas métricas y los mismos sets de testeo, por lo que si llegan a existir casos como el que tú diste, será así para todos.

Cabe destacar también que en "la vida real", es para prepararse para este tipo de datos que es útil realizar una exploración de datos del dataset como la que se les pide en la Actividad 1. Si realizas esa actividad para el set de validación podrás estimar qué tan probable es que ocurran casos como el que diste. (No tienes que hacerlo claro, solo lo menciono como lección para el futuro).

Saludos y éxito en lo que les queda de tarea

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Tarea 1 Pregunta acerca de la tarea 1
Projects
None yet
Development

No branches or pull requests

4 participants