diff --git a/datasets.csv b/datasets.csv index ccb95b3..d1d9d58 100644 --- a/datasets.csv +++ b/datasets.csv @@ -15,3 +15,4 @@ name,tags,description,website,github,paper,hf_dataset_name,hf_contributor_handle "BasCrawl","modelado del lenguaje","BasCrawl es un corpus web de 186 millones de tokens en euskera obtenido mediante el análisis de más de 12000 dominios en internet (se incluyen los dominios analizados). El corpus ha sido preprocesado y depurado siguiendo el mismo procedimiento que MarIA.","https://doi.org/10.5281/zenodo.7313092",,,"","" "Spanish Legal Domain Corpora","modelado del lenguaje","Dataset compuesto por una colección de textos (corpus) del ámbito jurídico español.","https://doi.org/10.5281/zenodo.5495529","https://github.com/PlanTL-GOB-ES/lm-legal-es","https://arxiv.org/abs/2110.12201","","" "Spanish Skip-Gram Word Embeddings in FastText","modelado del lenguaje,FastText","El corpus cuenta con más de 2TB de texto de alta calidad, recopilado a partir de los diferentes análisis web realizados por la Biblioteca Nacional de España desde 2009 hasta 2019. Dataset compuesto exclusivamente por embeddings Skip-Gram.","https://doi.org/10.5281/zenodo.5046525",,,"http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405","" +"Spanish CBOW Word Embeddings in FastText","modelado del lenguaje,FastText","Embeddings de palabras en español en FastText generados a partir del mayor corpus realizado en español hasta la fecha. El corpus cuenta con más de 2 TB de texto de alta calidad, recopilado a partir de los diferentes rastreos web realizados por la Biblioteca Nacional de España entre 2009 y 2019. Dataset compuesto exclusivamente por CBOW embeddings.","https://doi.org/10.5281/zenodo.5044988",,,"http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405",""