content: update dataset list

somosnlp · Jul 27, 2023 · 08fcfad · 08fcfad
1 parent 5ea5d85
commit 08fcfad
Showing 1 changed file with 1 addition and 0 deletions.
diff --git a/datasets.csv b/datasets.csv
@@ -14,3 +14,4 @@ name,tags,description,website,github,paper,hf_dataset_name,hf_contributor_handle
 "CSIC Spanish Corpus","modelado del lenguaje","El corpus español de CSIC es un corpus de 146 millones de tokens de revistas científicas españolas del repositorio revistas.csic.es/. El corpus se ha preprocesado y depurado mediante el procedimiento de Corpus-Cleaner.","https://doi.org/10.5281/zenodo.7313126",,,"",""
 "BasCrawl","modelado del lenguaje","BasCrawl es un corpus web de 186 millones de tokens en euskera obtenido mediante el análisis de más de 12000 dominios en internet (se incluyen los dominios analizados). El corpus ha sido preprocesado y depurado siguiendo el mismo procedimiento que MarIA.","https://doi.org/10.5281/zenodo.7313092",,,"",""
 "Spanish Legal Domain Corpora","modelado del lenguaje","Dataset compuesto por una colección de textos (corpus) del ámbito jurídico español.","https://doi.org/10.5281/zenodo.5495529","https://github.com/PlanTL-GOB-ES/lm-legal-es","https://arxiv.org/abs/2110.12201","",""
+"Spanish Skip-Gram Word Embeddings in FastText","modelado del lenguaje,FastText","El corpus cuenta con más de 2TB de texto de alta calidad, recopilado a partir de los diferentes análisis web realizados por la Biblioteca Nacional de España desde 2009 hasta 2019. Dataset compuesto exclusivamente por embeddings Skip-Gram.","https://doi.org/10.5281/zenodo.5046525",,,"http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405",""