Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Añadir corpus original Spanish Dish Tiltle. #43

Open
wants to merge 8 commits into
base: main
Choose a base branch
from

Conversation

Frorozcoloa
Copy link

Este es un repositorio, que contiene imagenes de platos y su respectivo nombre o title. Esto dataset se creó haciendo scrapy de https://www.recetasgratis.net. Se extreyeron las miniaturas de las images y su respectivo titulo

Copy link
Member

@mariagrandury mariagrandury left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Hola Fredy! Qué bien verte por aquí, gracias por la primera PR! 🎉

Un par de cositas:

@Frorozcoloa
Copy link
Author

Listo, ya se subieron las imagenes al respositorio de hugginface, queda pendiente hacer el readme del dataset.

Copy link
Member

@mariagrandury mariagrandury left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Gran trabajo Fredy! Dejo un par de comentarios a continuación

Nota 1: El dataset se encuentra en formato csv.
Nota 2: El nombre de las imagenes tambien va el titulo

## Directorio
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Incluye por favor todos los ficheros y su explicación

```
## Análisis exploratorio de datos

El ánilisis exploratorio se centra en el texto, para las imagenes tocaría aplicar herramientas de visión por computador como clip, para crear ciertas clasificaciones.
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Incluye también una frase diciendo que el notebook está disponible con un enlace al notebook EDA.ipynb

@@ -0,0 +1,42 @@
# Platos de comida
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Propuesta para el estudio de sesgos: de dónde son las recetas? Incluyen recetas de diferentes países/continentes?

@@ -0,0 +1,42 @@
# Platos de comida
## Descripción
El siguiente dataset son imagenes con platos de comidas y su titulo. El dataset se creó haciendo scrapy a la siguiente página web <a href="https://www.recetasgratis.net/">Recetas gratis</a>, la metodología es la siguiente:
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
El siguiente dataset son imagenes con platos de comidas y su titulo. El dataset se creó haciendo scrapy a la siguiente página web <a href="https://www.recetasgratis.net/">Recetas gratis</a>, la metodología es la siguiente:
El siguiente dataset son imágenes con platos de comidas y su título. El dataset se creó haciendo scrapy a la siguiente página web <a href="https://www.recetasgratis.net/">Recetas gratis</a>, la metodología es la siguiente:

1. Se obtiene el link de la página principal de la categoría de comida.
2. Se obtiene el link de la página de cada receta.
3. Se obtiene el link de la imagen de la receta.
4. Se obtiene el titulo de la receta.
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
4. Se obtiene el titulo de la receta.
4. Se obtiene el título de la receta.

```
## Análisis exploratorio de datos

El ánilisis exploratorio se centra en el texto, para las imagenes tocaría aplicar herramientas de visión por computador como clip, para crear ciertas clasificaciones.
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
El ánilisis exploratorio se centra en el texto, para las imagenes tocaría aplicar herramientas de visión por computador como clip, para crear ciertas clasificaciones.
El ánilisis exploratorio se centra en el texto, para las imágenes tocaría aplicar herramientas de visión por computador como clip, para crear ciertas clasificaciones.

from pathlib import Path


def donwload(url, directory):
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Por favor incluye una pequeña descripción de las funciones en docstrings, p.ej:

Suggested change
def donwload(url, directory):
def donwload(url, directory):
"""
Descargar ...
"""

@@ -0,0 +1,6 @@
{
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Este fichero no hace falta que lo incluyas, incluye .ipynb_checkpoints en el .gitignore :)

Nota 1: El dataset se encuentra en formato csv.
Nota 2: El nombre de las imagenes tambien va el titulo

## Directorio
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Especifica por favor la función del notebook en el nombre de Untitled.ipynb

En la imagen podemos ver las palabras más frecuentes para el texto, tambien podemos ver un boxplot del texto
<img src="box_plot.png">
Aquí podemos ver como existen palabras muy pequeñas y muy grandes, por lo que recomendamos al usario que se fije en el texto para ver si le sirve el tamaño del texto
<img src="distribution.png">
Copy link
Member

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

En este caso igual size_distribution.png es un nombre más específico :)

@mariagrandury
Copy link
Member

Al README todavía hay que anadirle un YAML header, la plantilla está aquí: https://github.com/somosnlp/corpus-es/blob/main/datasets/nuevo_dataset.md

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

None yet

2 participants