From 08fcfad12bec21fe95f3763316d569ab38a4ec6d Mon Sep 17 00:00:00 2001 From: Maria Grandury Date: Thu, 27 Jul 2023 12:02:32 +0200 Subject: [PATCH] content: update dataset list --- datasets.csv | 1 + 1 file changed, 1 insertion(+) diff --git a/datasets.csv b/datasets.csv index 4ee1018..ccb95b3 100644 --- a/datasets.csv +++ b/datasets.csv @@ -14,3 +14,4 @@ name,tags,description,website,github,paper,hf_dataset_name,hf_contributor_handle "CSIC Spanish Corpus","modelado del lenguaje","El corpus español de CSIC es un corpus de 146 millones de tokens de revistas científicas españolas del repositorio revistas.csic.es/. El corpus se ha preprocesado y depurado mediante el procedimiento de Corpus-Cleaner.","https://doi.org/10.5281/zenodo.7313126",,,"","" "BasCrawl","modelado del lenguaje","BasCrawl es un corpus web de 186 millones de tokens en euskera obtenido mediante el análisis de más de 12000 dominios en internet (se incluyen los dominios analizados). El corpus ha sido preprocesado y depurado siguiendo el mismo procedimiento que MarIA.","https://doi.org/10.5281/zenodo.7313092",,,"","" "Spanish Legal Domain Corpora","modelado del lenguaje","Dataset compuesto por una colección de textos (corpus) del ámbito jurídico español.","https://doi.org/10.5281/zenodo.5495529","https://github.com/PlanTL-GOB-ES/lm-legal-es","https://arxiv.org/abs/2110.12201","","" +"Spanish Skip-Gram Word Embeddings in FastText","modelado del lenguaje,FastText","El corpus cuenta con más de 2TB de texto de alta calidad, recopilado a partir de los diferentes análisis web realizados por la Biblioteca Nacional de España desde 2009 hasta 2019. Dataset compuesto exclusivamente por embeddings Skip-Gram.","https://doi.org/10.5281/zenodo.5046525",,,"http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405",""