LLMs for Extremely Low-Resource Finno-Ugric Languages

This repository contains the implementation used for training and evaluating language models for extremely low-resource Finno-Ugric languages.

Models

Pre-trained:

tartuNLP/Llama-SMUGRI-7B

Instruction-tuned:

tartuNLP/Llama-SMUGRI-7B-Instruct-MTI (SupInst+TrAlpaca)
Llama-SMUGRI-7B-Instruct-MTI-Tr (SupInst+TrAlpaca+TrInst)
tartuNLP/Llama-SMUGRI-7B-Instruct-LLMTI (SupInst+LLMTrAlpaca)
tartuNLP/Llama-SMUGRI-7B-Instruct-LLMTI-Tr (SupInst+LLMTrAlpaca+TrInst)

Evaluation

Belebele-SMUGRI:

https://huggingface.co/datasets/tartuNLP/belebele-smugri

SIB-SMUGRI:

https://huggingface.co/datasets/tartuNLP/sib-smugri

Usage

Scripts for launching training are provided in:

scripts/training

LM-eval-harness configurations:

scripts/evaluation/lm_eval_harness_configs

Citation

@misc{purason2024llmsextremelylowresourcefinnougric,
      title={LLMs for Extremely Low-Resource Finno-Ugric Languages}, 
      author={Taido Purason and Hele-Andra Kuulmets and Mark Fishel},
      year={2024},
      eprint={2410.18902},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2410.18902}, 
}

Acknowledgements

The implementation is built on github.com/TartuNLP/llammas.

Name		Name	Last commit message	Last commit date
Latest commit History 61 Commits
scripts		scripts
.gitignore		.gitignore
README.md		README.md
batch_instruction_inference.py		batch_instruction_inference.py
finetune.py		finetune.py
inference_datasets.py		inference_datasets.py
requirements.txt		requirements.txt
training_datasets.py		training_datasets.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LLMs for Extremely Low-Resource Finno-Ugric Languages

Models

Evaluation

Usage

Citation

Acknowledgements

About

Releases

Packages

Contributors 2

Languages

TartuNLP/smugri-llm

Folders and files

Latest commit

History

Repository files navigation

LLMs for Extremely Low-Resource Finno-Ugric Languages

Models

Evaluation

Usage

Citation

Acknowledgements

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages