Skip to content

Commit

Permalink
content: update dataset list
Browse files Browse the repository at this point in the history
  • Loading branch information
mariagrandury committed Jul 27, 2023
1 parent 5ea5d85 commit 08fcfad
Showing 1 changed file with 1 addition and 0 deletions.
1 change: 1 addition & 0 deletions datasets.csv
Original file line number Diff line number Diff line change
Expand Up @@ -14,3 +14,4 @@ name,tags,description,website,github,paper,hf_dataset_name,hf_contributor_handle
"CSIC Spanish Corpus","modelado del lenguaje","El corpus español de CSIC es un corpus de 146 millones de tokens de revistas científicas españolas del repositorio revistas.csic.es/. El corpus se ha preprocesado y depurado mediante el procedimiento de Corpus-Cleaner.","https://doi.org/10.5281/zenodo.7313126",,,"",""
"BasCrawl","modelado del lenguaje","BasCrawl es un corpus web de 186 millones de tokens en euskera obtenido mediante el análisis de más de 12000 dominios en internet (se incluyen los dominios analizados). El corpus ha sido preprocesado y depurado siguiendo el mismo procedimiento que MarIA.","https://doi.org/10.5281/zenodo.7313092",,,"",""
"Spanish Legal Domain Corpora","modelado del lenguaje","Dataset compuesto por una colección de textos (corpus) del ámbito jurídico español.","https://doi.org/10.5281/zenodo.5495529","https://github.com/PlanTL-GOB-ES/lm-legal-es","https://arxiv.org/abs/2110.12201","",""
"Spanish Skip-Gram Word Embeddings in FastText","modelado del lenguaje,FastText","El corpus cuenta con más de 2TB de texto de alta calidad, recopilado a partir de los diferentes análisis web realizados por la Biblioteca Nacional de España desde 2009 hasta 2019. Dataset compuesto exclusivamente por embeddings Skip-Gram.","https://doi.org/10.5281/zenodo.5046525",,,"http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405",""

0 comments on commit 08fcfad

Please sign in to comment.