BabyLM: Training BPE Tokenizer

This repository contains code for training a tokenizer on BabyLM 10M corpus. To train a tokenizer, clone this repository, install the requirements and run the following command:

python scripts/train_bbpe.py

The code is based on BabyBERTa.

Name		Name	Last commit message	Last commit date
Latest commit History 169 Commits
babyberta		babyberta
data		data
huggingface_recommended		huggingface_recommended
images		images
saved_models		saved_models
scripts		scripts
.gitignore		.gitignore
README.md		README.md
corpus_stats.csv		corpus_stats.csv
example.py		example.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

BabyLM: Training BPE Tokenizer

About

Releases

Packages

Languages

upunaprosk/BabyBERTa

Folders and files

Latest commit

History

Repository files navigation

BabyLM: Training BPE Tokenizer

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages