En este repo encontrarás:
- Datasets open-source: Lista de datasets abiertos de PLN en español (a continuación)
- Hackathon Somos NLP 2022 y 2023: Diapositivas y notebooks de las charlas y talleres impartidas durante el mayor hackathon open-source de PLN en español
- Grupo de estudio: Diapositivas y material del grupo de estudio, únete en el canal #grupo-de-estudio de Discord
Tenemos también una sección de la página web dedicada a recursos de PLN: https://somosnlp.org/recursos
Si no encuentras lo que estás buscando te animamos a unirte a Discord y preguntar a la comunidad. Aquí tienes una invitación.
nombre | tareas | dominio | idioma | pais | página_web | github | paper | hf_dataset_name | hf_contributor_handle |
---|---|---|---|---|---|---|---|---|---|
BasCrawl | modelado del lenguaje | general | euskera | España | https://doi.org/10.5281/zenodo.7313092 | nan | nan | nan | nan |
Biomedical Spanish CBOW Word Embeddings in Floret | modelado del lenguaje,CBOW (Continuous Bag Of Words) | clinico | español | España | https://doi.org/10.5281/zenodo.7314041 | https://arxiv.org/abs/2109.07765 | nan | nan | nan |
CSIC Spanish Corpus | modelado del lenguaje | academico | español | España | https://doi.org/10.5281/zenodo.7313126 | nan | nan | nan | nan |
Catalonia Independence Corpus | clasificación de sentimientos | rrss | catalán, español | España | nan | https://github.com/ixa-ehu/catalonia-independence-corpus | https://www.aclweb.org/anthology/2020.lrec-1.171/ | catalonia_independence | lewtun |
HEAD-QA | preguntas de opción múltiple | clinico | español | España | https://aghie.github.io/head-qa/ | https://github.com/aghie/head-qa | https://www.aclweb.org/anthology/P19-1092/ | head_qa | mariagrandury |
InfoLibros Corpus | modelado del lenguaje | literatura | español | Varios | https://doi.org/10.5281/zenodo.7313105 | nan | nan | nan | nan |
Large Spanish Corpus | modelado del lenguaje,pre-entrenamiento | general | español | Varios | nan | https://github.com/josecannete/spanish-corpora | nan | large_spanish_corpus | lewtun |
Mucho Cine | clasificación de sentimientos | general | español | Varios | http://www.lsi.us.es/~fermin/index.php/Datasets | nan | nan | muchocine | mapmeld |
Spanish Billion Words | modelado del lenguaje,pre-entrenamiento | general | español | Varios | https://crscardellino.github.io/SBWCE/ | nan | nan | spanish_billion_words | mariagrandury |
Spanish Biomedical Crawled Corpus | modelado del lenguaje | clinico | español | España | https://doi.org/10.5281/zenodo.5513237 | nan | https://arxiv.org/abs/2109.07765 | nan | nan |
Spanish CBOW Word Embeddings in FastText | modelado del lenguaje,FastText | general | español | España | https://doi.org/10.5281/zenodo.5044988 | nan | http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405 | nan | nan |
Spanish CBOW Word Embeddings in Floret | modelado del lenguaje,CBOW (Continuous Bag Of Words) | general | español | España | https://doi.org/10.5281/zenodo.7314098 | nan | nan | nan | nan |
Spanish Legal Domain Corpora | modelado del lenguaje | legal | español | España | https://doi.org/10.5281/zenodo.5495529 | https://github.com/PlanTL-GOB-ES/lm-legal-es | https://arxiv.org/abs/2110.12201 | nan | nan |
Spanish Legal Domain Word & Sub-Word Embeddings | modelado del lenguaje | legal | español | España | https://doi.org/10.5281/zenodo.5036147 | https://github.com/PlanTL-GOB-ES/lm-legal-es | https://arxiv.org/abs/2110.12201 | nan | nan |
Spanish Skip-Gram Word Embeddings in FastText | modelado del lenguaje,FastText | general | español | España | https://doi.org/10.5281/zenodo.5046525 | nan | http://journal.sepln.org/sepln/ojs/ojs/index.php/pln/article/view/6405 | nan | nan |
TDX Thesis Spanish Corpus | modelado del lenguaje | academico | catalán, español | España | https://doi.org/10.5281/zenodo.7313149 | nan | nan | nan | nan |
WikiCorpus | modelado del lenguaje,POS (Part of Speech) | general | catalán, español, inglés | Varios | https://www.cs.upc.edu/~nlp/wikicorpus/ | nan | https://www.cs.upc.edu/~nlp/papers/reese10.pdf | wikicorpus | albertvillanova |
eHealth-KD | reconocimiento de entidades nombradas (NER) | clinico | es | España | https://knowledge-learning.github.io/ehealthkd-2020/ | https://github.com/knowledge-learning/ehealthkd-2020 | http://ceur-ws.org/Vol-2664/eHealth-KD_overview.pdf | ehealth_kd | mariagrandury |