Simple Training Skeleton for VLMs

This repository contains code to quickly train visual-language models from pre-trained models (e.g., ~300 lines of code for model, dataset, and training).