diff --git a/llama2_70b_lora/Dockerfile b/llama2_70b_lora/Dockerfile
new file mode 100644
index 000000000..c14813613
--- /dev/null
+++ b/llama2_70b_lora/Dockerfile
@@ -0,0 +1,8 @@
+ARG FROM_IMAGE_NAME=nvcr.io/nvidia/pytorch:24.01-py3
+FROM ${FROM_IMAGE_NAME}
+
+WORKDIR /workspace/ft-llm
+ADD . /workspace/ft-llm
+
+RUN pip install -r requirements.txt
+RUN pip install flash-attn==2.4.1 --no-build-isolation
diff --git a/llama2_70b_lora/README.md b/llama2_70b_lora/README.md
new file mode 100644
index 000000000..2caddad2f
--- /dev/null
+++ b/llama2_70b_lora/README.md
@@ -0,0 +1,100 @@
+# LoRA benchmark
+
+LoRA benchmark on GPU (Nvidia A100 80GB). Inspired by [this blog post](https://medium.com/@sourabmangrulkar/falcon-180b-finetuning-using-peft-and-deepspeed-b92643091d99) and [this script](https://github.com/pacman100/DHS-LLM-Workshop/blob/main/chat_assistant/training/train.py).
+
+
+## Setup
+
+Run the following:
+```bash
+sudo ./run_docker.sh
+cd lora
+pip install -r requirements.txt
+```
+
+> The Docker run command contains `-v /home/regis_huggingface_co/workspace:/root/workspace --workdir /root/workspace`. Feel free to change these flags at your own convenience.
+
+You will also need to run the following to install flash attention:
+```
+pip install flash-attn --no-build-isolation
+```
+
+> For flash attention, make sure that the following command returns 0:
+> ```
+> ninja --version >/dev/null && echo $?
+> ```
+> If not, run
+> ```
+> pip uninstall -y ninja && pip install ninja
+> ```
+> and install `flash-attn` again.
+> More information [here](https://github.com/Dao-AILab/flash-attention?tab=readme-ov-file#installation-and-features).
+
+Make sure to have requested permission for donwloading Llama2 weights on the Hugging Face Hub: https://huggingface.co/meta-llama/Llama-2-7b-hf
+Then, you will need to be connected to your Hugging Face account with a read token running:
+```
+huggingface-cli login
+```
+Finally please install mlperf logger:
+```
+git clone https://github.com/mlperf/logging.git mlperf-logging
+pip install -e mlperf-logging
+```
+## Download Data and Model
+data can be downloaded from:
+[mlperf drive - train data](https://drive.google.com/file/d/1-JgY1mEafcJ7qhggt6UR3OEKAciIPd5s/view?usp=sharing)
+[mlperf drive - validation data](https://drive.google.com/file/d/1jrm6Lacrq49AYv0uB_Qy22xRmfPixQvs/view?usp=sharing)
+[mlperf drive - llama-v2 model](https://drive.google.com/drive/folders/1sTeuxkPhwkNPKIPFnOLIYCcK53oB3Ypc?usp=sharing)
+As defaults the scripts assume the model is under at ```./llama-v2-fused-qkv``` and the both train and validation are under ```dataset``` folder.
+
+## Llama2-70B on 8 devices
+
+Run:
+```bash
+accelerate launch --config_file configs/default_config.yaml scripts/train.py \
+--model_name meta-llama/Llama-2-70b-hf \
+--dataset_name "tau/scrolls" --dataset_config_name "gov_report" \
+--max_seq_len 8192 \
+--bf16 True \
+--logging_steps 1 \
+--eval_steps 22 \
+--output_dir "/tmp/llama-70b" \
+--per_device_train_batch_size 1 \
+--gradient_accumulation_steps 1 \
+--dataset_text_field "input" \
+--lr_scheduler_type "cosine" \
+--learning_rate 1e-3 \
+--warmup_ratio 0.03 \
+--use_gradient_checkpointing True \
+--use_peft_lora True \
+--lora_r 16 \
+--lora_alpha 32 \
+--lora_dropout 0.1 \
+--max_steps 440 \
+--use_flash_attn \
+--lora_target_modules "q_proj,v_proj,k_proj,o_proj"
+```
+where the Accelerate config file is [this one](https://github.com/regisss/lora/blob/main/configs/default_config.yaml).
+
+> Using flash attention with `--use_flash_attn` is necessary for training on 8k-token sequences.
+
+Learning curves of such a run can be found here: https://huggingface.co/regisss/test_5/tensorboard
+
+
+## Evaluation
+
+To run evaluation for summarizing texts, you can run:
+- Without LoRA adapter weights:
+   ```
+   python scripts/eval.py --model_name meta-llama/Llama-2-70b-hf --max_new_tokens 900 --seq_length 8192 --do_sample --dataset_name "tau/scrolls" --dataset_config_name "gov_report"
+   ```
+- With LoRA adapter weights:
+   ```
+   python scripts/eval.py --peft_model_name path_to_my_lora_model --max_new_tokens 900 --seq_length 8192 --do_sample --dataset_name "tau/scrolls" --dataset_config_name "gov_report"
+   ```
+## expected outcome
+
+A clean output (train and eval loss) of a singel run with 440 steps can be found under 
+```
+   convergence_example.txt
+```
\ No newline at end of file
diff --git a/llama2_70b_lora/configs/default_config.yaml b/llama2_70b_lora/configs/default_config.yaml
new file mode 100644
index 000000000..e422c0364
--- /dev/null
+++ b/llama2_70b_lora/configs/default_config.yaml
@@ -0,0 +1,22 @@
+compute_environment: LOCAL_MACHINE
+debug: false
+deepspeed_config:
+  gradient_accumulation_steps: 1
+  offload_optimizer_device: none
+  offload_param_device: none
+  zero3_init_flag: true
+  zero3_save_16bit_model: true
+  zero_stage: 3
+distributed_type: DEEPSPEED
+downcast_bf16: 'no'
+machine_rank: 0
+main_training_function: main
+mixed_precision: bf16
+num_machines: 1
+num_processes: 8
+rdzv_backend: static
+same_network: true
+tpu_env: []
+tpu_use_cluster: false
+tpu_use_sudo: false
+use_cpu: false
diff --git a/llama2_70b_lora/convergence_example.txt b/llama2_70b_lora/convergence_example.txt
new file mode 100644
index 000000000..9d5c9b218
--- /dev/null
+++ b/llama2_70b_lora/convergence_example.txt
@@ -0,0 +1,508 @@
+  0%|          | 0/440 [00:00<?, ?it/s]/usr/local/lib/python3.10/dist-packages/torch/utils/checkpoint.py:428: UserWarning: torch.utils.checkpoint: please pass in use_reentrant=True or use_reentrant=False explicitly. The default value of use_reentrant will be updated to be False in the future. To maintain current behavior, pass use_reentrant=True. It is recommended that you use use_reentrant=False. Refer to docs for more details on the differences between the two variants.
+  0%|          | 1/440 [00:22<2:43:37, 22.36s/it]                                                 {'loss': 4.4063, 'learning_rate': 7.142857142857142e-05, 'epoch': 0.0}
+  0%|          | 1/440 [00:22<2:43:37, 22.36s/it]  0%|          | 2/440 [00:41<2:30:51, 20.67s/it]                                                 {'loss': 4.9024, 'learning_rate': 0.00014285714285714284, 'epoch': 0.0}
+  0%|          | 2/440 [00:41<2:30:51, 20.67s/it]  1%|          | 3/440 [01:01<2:27:09, 20.20s/it]                                                 {'loss': 4.3486, 'learning_rate': 0.00021428571428571427, 'epoch': 0.0}
+  1%|          | 3/440 [01:01<2:27:09, 20.20s/it]  1%|          | 4/440 [01:21<2:25:18, 20.00s/it]                                                 {'loss': 4.1668, 'learning_rate': 0.0002857142857142857, 'epoch': 0.01}
+  1%|          | 4/440 [01:21<2:25:18, 20.00s/it]  1%|          | 5/440 [01:40<2:23:40, 19.82s/it]                                                 {'loss': 3.618, 'learning_rate': 0.00035714285714285714, 'epoch': 0.01}
+  1%|          | 5/440 [01:40<2:23:40, 19.82s/it]  1%|▏         | 6/440 [02:00<2:22:57, 19.76s/it]                                                 {'loss': 2.6483, 'learning_rate': 0.00042857142857142855, 'epoch': 0.01}
+  1%|▏         | 6/440 [02:00<2:22:57, 19.76s/it]  2%|▏         | 7/440 [02:19<2:22:12, 19.71s/it]                                                 {'loss': 1.8078, 'learning_rate': 0.0005, 'epoch': 0.01}
+  2%|▏         | 7/440 [02:19<2:22:12, 19.71s/it]  2%|▏         | 8/440 [02:39<2:21:38, 19.67s/it]                                                 {'loss': 2.0641, 'learning_rate': 0.0005714285714285714, 'epoch': 0.01}
+  2%|▏         | 8/440 [02:39<2:21:38, 19.67s/it]  2%|▏         | 9/440 [02:59<2:21:17, 19.67s/it]                                                 {'loss': 2.0137, 'learning_rate': 0.0006428571428571429, 'epoch': 0.01}
+  2%|▏         | 9/440 [02:59<2:21:17, 19.67s/it]  2%|▏         | 10/440 [03:18<2:21:01, 19.68s/it]                                                  {'loss': 1.9258, 'learning_rate': 0.0007142857142857143, 'epoch': 0.01}
+  2%|▏         | 10/440 [03:18<2:21:01, 19.68s/it]  2%|▎         | 11/440 [03:38<2:20:40, 19.67s/it]                                                  {'loss': 1.9346, 'learning_rate': 0.0007857142857142857, 'epoch': 0.02}
+  2%|▎         | 11/440 [03:38<2:20:40, 19.67s/it]  3%|▎         | 12/440 [03:58<2:20:21, 19.68s/it]                                                  {'loss': 1.2637, 'learning_rate': 0.0008571428571428571, 'epoch': 0.02}
+  3%|▎         | 12/440 [03:58<2:20:21, 19.68s/it]  3%|▎         | 13/440 [04:17<2:19:45, 19.64s/it]                                                  {'loss': 1.1988, 'learning_rate': 0.0009285714285714287, 'epoch': 0.02}
+  3%|▎         | 13/440 [04:17<2:19:45, 19.64s/it]  3%|▎         | 14/440 [04:37<2:19:19, 19.62s/it]                                                  {'loss': 1.3756, 'learning_rate': 0.001, 'epoch': 0.02}
+  3%|▎         | 14/440 [04:37<2:19:19, 19.62s/it]  3%|▎         | 15/440 [04:56<2:18:53, 19.61s/it]                                                  {'loss': 0.9361, 'learning_rate': 0.0009999864037673423, 'epoch': 0.02}
+  3%|▎         | 15/440 [04:56<2:18:53, 19.61s/it]  4%|▎         | 16/440 [05:16<2:18:44, 19.63s/it]                                                  {'loss': 1.5928, 'learning_rate': 0.0009999456158087995, 'epoch': 0.02}
+  4%|▎         | 16/440 [05:16<2:18:44, 19.63s/it]  4%|▍         | 17/440 [05:36<2:18:28, 19.64s/it]                                                  {'loss': 1.1853, 'learning_rate': 0.0009998776383426215, 'epoch': 0.02}
+  4%|▍         | 17/440 [05:36<2:18:28, 19.64s/it]  4%|▍         | 18/440 [05:55<2:18:12, 19.65s/it]                                                  {'loss': 1.1763, 'learning_rate': 0.0009997824750657585, 'epoch': 0.03}
+  4%|▍         | 18/440 [05:55<2:18:12, 19.65s/it]  4%|▍         | 19/440 [06:15<2:17:53, 19.65s/it]                                                  {'loss': 0.9169, 'learning_rate': 0.0009996601311536586, 'epoch': 0.03}
+  4%|▍         | 19/440 [06:15<2:17:53, 19.65s/it]  5%|▍         | 20/440 [06:35<2:17:34, 19.65s/it]                                                  {'loss': 1.087, 'learning_rate': 0.0009995106132599867, 'epoch': 0.03}
+  5%|▍         | 20/440 [06:35<2:17:34, 19.65s/it]  5%|▍         | 21/440 [06:54<2:17:22, 19.67s/it]                                                  {'loss': 1.3048, 'learning_rate': 0.0009993339295162635, 'epoch': 0.03}
+  5%|▍         | 21/440 [08:00<2:17:22, 19.67s/it]  5%|▌         | 22/440 [08:24<4:44:02, 40.77s/it]                                                  {'loss': 1.2628, 'learning_rate': 0.000999130089531422, 'epoch': 0.03}
+  5%|▌         | 22/440 [08:24<4:44:02, 40.77s/it]
+                                             [A{'eval_loss': 0.9970557689666748, 'eval_runtime': 201.189, 'eval_samples_per_second': 1.208, 'eval_steps_per_second': 0.02, 'epoch': 0.03}
+  5%|▌         | 22/440 [11:46<4:44:02, 40.77s/it]
+  5%|▌         | 23/440 [16:52<20:56:53, 180.85s/it]                                                    {'loss': 1.2594, 'learning_rate': 0.0009988991043912857, 'epoch': 0.03}
+  5%|▌         | 23/440 [16:52<20:56:53, 180.85s/it]  5%|▌         | 24/440 [17:12<15:18:15, 132.44s/it]                                                    {'loss': 1.1836, 'learning_rate': 0.000998640986657965, 'epoch': 0.03}
+  5%|▌         | 24/440 [17:12<15:18:15, 132.44s/it]  6%|▌         | 25/440 [17:32<11:23:37, 98.84s/it]                                                    {'loss': 1.1205, 'learning_rate': 0.0009983557503691755, 'epoch': 0.04}
+  6%|▌         | 25/440 [17:32<11:23:37, 98.84s/it]  6%|▌         | 26/440 [17:52<8:38:03, 75.08s/it]                                                   {'loss': 0.9516, 'learning_rate': 0.0009980434110374724, 'epoch': 0.04}
+  6%|▌         | 26/440 [17:52<8:38:03, 75.08s/it]  6%|▌         | 27/440 [18:12<6:42:53, 58.53s/it]                                                  {'loss': 0.9634, 'learning_rate': 0.000997703985649409, 'epoch': 0.04}
+  6%|▌         | 27/440 [18:12<6:42:53, 58.53s/it][2024-01-10 08:21:41,503] [WARNING] [stage3.py:1991:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
+  6%|▋         | 28/440 [18:32<5:22:33, 46.97s/it]                                                  {'loss': 1.1483, 'learning_rate': 0.0009973374926646116, 'epoch': 0.04}
+  6%|▋         | 28/440 [18:32<5:22:33, 46.97s/it]  7%|▋         | 29/440 [18:51<4:26:00, 38.83s/it]                                                  {'loss': 1.0093, 'learning_rate': 0.0009969439520147753, 'epoch': 0.04}
+  7%|▋         | 29/440 [18:51<4:26:00, 38.83s/it]  7%|▋         | 30/440 [19:11<3:45:55, 33.06s/it]                                                  {'loss': 0.9212, 'learning_rate': 0.0009965233851025814, 'epoch': 0.04}
+  7%|▋         | 30/440 [19:11<3:45:55, 33.06s/it]  7%|▋         | 31/440 [19:31<3:17:58, 29.04s/it]                                                  {'loss': 0.9002, 'learning_rate': 0.0009960758148005323, 'epoch': 0.04}
+  7%|▋         | 31/440 [19:31<3:17:58, 29.04s/it]  7%|▋         | 32/440 [19:50<2:58:23, 26.23s/it]                                                  {'loss': 0.7936, 'learning_rate': 0.0009956012654497074, 'epoch': 0.05}
+  7%|▋         | 32/440 [19:50<2:58:23, 26.23s/it]  8%|▊         | 33/440 [20:10<2:44:46, 24.29s/it]                                                  {'loss': 0.7836, 'learning_rate': 0.0009950997628584404, 'epoch': 0.05}
+  8%|▊         | 33/440 [20:10<2:44:46, 24.29s/it]  8%|▊         | 34/440 [20:30<2:34:55, 22.90s/it]                                                  {'loss': 1.0642, 'learning_rate': 0.0009945713343009154, 'epoch': 0.05}
+  8%|▊         | 34/440 [20:30<2:34:55, 22.90s/it]  8%|▊         | 35/440 [20:49<2:27:56, 21.92s/it]                                                  {'loss': 0.8896, 'learning_rate': 0.000994016008515682, 'epoch': 0.05}
+  8%|▊         | 35/440 [20:49<2:27:56, 21.92s/it]  8%|▊         | 36/440 [21:09<2:23:05, 21.25s/it]                                                  {'loss': 0.9818, 'learning_rate': 0.0009934338157040951, 'epoch': 0.05}
+  8%|▊         | 36/440 [21:09<2:23:05, 21.25s/it]  8%|▊         | 37/440 [21:29<2:19:34, 20.78s/it]                                                  {'loss': 0.9611, 'learning_rate': 0.0009928247875286705, 'epoch': 0.05}
+  8%|▊         | 37/440 [21:29<2:19:34, 20.78s/it]  9%|▊         | 38/440 [21:49<2:17:09, 20.47s/it]                                                  {'loss': 1.0291, 'learning_rate': 0.0009921889571113628, 'epoch': 0.05}
+  9%|▊         | 38/440 [21:49<2:17:09, 20.47s/it]  9%|▉         | 39/440 [22:08<2:15:19, 20.25s/it]                                                  {'loss': 0.9517, 'learning_rate': 0.0009915263590317654, 'epoch': 0.06}
+  9%|▉         | 39/440 [22:08<2:15:19, 20.25s/it]  9%|▉         | 40/440 [22:28<2:13:44, 20.06s/it]                                                  {'loss': 0.85, 'learning_rate': 0.000990837029325229, 'epoch': 0.06}
+  9%|▉         | 40/440 [22:28<2:13:44, 20.06s/it]  9%|▉         | 41/440 [22:47<2:12:30, 19.93s/it]                                                  {'loss': 0.8578, 'learning_rate': 0.0009901210054809014, 'epoch': 0.06}
+  9%|▉         | 41/440 [22:48<2:12:30, 19.93s/it] 10%|▉         | 42/440 [23:07<2:11:43, 19.86s/it]                                                  {'loss': 1.0426, 'learning_rate': 0.0009893783264396903, 'epoch': 0.06}
+ 10%|▉         | 42/440 [23:07<2:11:43, 19.86s/it] 10%|▉         | 43/440 [23:27<2:10:49, 19.77s/it]                                                  {'loss': 0.8851, 'learning_rate': 0.0009886090325921435, 'epoch': 0.06}
+ 10%|▉         | 43/440 [24:31<2:10:49, 19.77s/it] 10%|█         | 44/440 [24:55<4:26:07, 40.32s/it]                                                  {'loss': 0.7489, 'learning_rate': 0.0009878131657762535, 'epoch': 0.06}
+ 10%|█         | 44/440 [24:55<4:26:07, 40.32s/it]
+                                             [A{'eval_loss': 0.8719124794006348, 'eval_runtime': 200.4891, 'eval_samples_per_second': 1.212, 'eval_steps_per_second': 0.02, 'epoch': 0.06}
+ 10%|█         | 44/440 [28:16<4:26:07, 40.32s/it]
+ 10%|█         | 45/440 [33:33<20:09:38, 183.74s/it]                                                    {'loss': 1.0521, 'learning_rate': 0.0009869907692751818, 'epoch': 0.06}
+ 10%|█         | 45/440 [33:33<20:09:38, 183.74s/it][2024-01-10 08:37:03,229] [WARNING] [stage3.py:1991:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
+ 10%|█         | 46/440 [33:53<14:43:46, 134.59s/it]                                                    {'loss': 0.9681, 'learning_rate': 0.0009861418878149056, 'epoch': 0.07}
+ 10%|█         | 46/440 [33:53<14:43:46, 134.59s/it] 11%|█         | 47/440 [34:13<10:55:39, 100.10s/it]                                                    {'loss': 0.8333, 'learning_rate': 0.0009852665675617836, 'epoch': 0.07}
+ 11%|█         | 47/440 [34:13<10:55:39, 100.10s/it] 11%|█         | 48/440 [34:33<8:16:07, 75.94s/it]                                                    {'loss': 0.8845, 'learning_rate': 0.0009843648561200476, 'epoch': 0.07}
+ 11%|█         | 48/440 [34:33<8:16:07, 75.94s/it] 11%|█         | 49/440 [34:52<6:25:00, 59.08s/it]                                                  {'loss': 1.0049, 'learning_rate': 0.0009834368025292111, 'epoch': 0.07}
+ 11%|█         | 49/440 [34:52<6:25:00, 59.08s/it] 11%|█▏        | 50/440 [35:12<5:07:14, 47.27s/it]                                                  {'loss': 1.0833, 'learning_rate': 0.000982482457261405, 'epoch': 0.07}
+ 11%|█▏        | 50/440 [35:12<5:07:14, 47.27s/it] 12%|█▏        | 51/440 [35:32<4:12:52, 39.00s/it]                                                  {'loss': 0.9314, 'learning_rate': 0.0009815018722186299, 'epoch': 0.07}
+ 12%|█▏        | 51/440 [35:32<4:12:52, 39.00s/it] 12%|█▏        | 52/440 [35:51<3:34:43, 33.21s/it]                                                  {'loss': 0.7778, 'learning_rate': 0.000980495100729936, 'epoch': 0.07}
+ 12%|█▏        | 52/440 [35:51<3:34:43, 33.21s/it] 12%|█▏        | 53/440 [36:11<3:08:01, 29.15s/it]                                                  {'loss': 1.1849, 'learning_rate': 0.00097946219754852, 'epoch': 0.08}
+ 12%|█▏        | 53/440 [36:11<3:08:01, 29.15s/it] 12%|█▏        | 54/440 [36:31<2:49:20, 26.32s/it]                                                  {'loss': 0.8921, 'learning_rate': 0.0009784032188487506, 'epoch': 0.08}
+ 12%|█▏        | 54/440 [36:31<2:49:20, 26.32s/it] 12%|█▎        | 55/440 [36:51<2:36:15, 24.35s/it]                                                  {'loss': 0.9509, 'learning_rate': 0.0009773182222231104, 'epoch': 0.08}
+ 12%|█▎        | 55/440 [36:51<2:36:15, 24.35s/it] 13%|█▎        | 56/440 [37:10<2:26:53, 22.95s/it]                                                  {'loss': 0.8198, 'learning_rate': 0.0009762072666790658, 'epoch': 0.08}
+ 13%|█▎        | 56/440 [37:10<2:26:53, 22.95s/it] 13%|█▎        | 57/440 [37:30<2:20:08, 21.95s/it]                                                  {'loss': 0.9527, 'learning_rate': 0.0009750704126358569, 'epoch': 0.08}
+ 13%|█▎        | 57/440 [37:30<2:20:08, 21.95s/it] 13%|█▎        | 58/440 [37:50<2:15:32, 21.29s/it]                                                  {'loss': 1.0632, 'learning_rate': 0.000973907721921212, 'epoch': 0.08}
+ 13%|█▎        | 58/440 [37:50<2:15:32, 21.29s/it] 13%|█▎        | 59/440 [38:09<2:12:00, 20.79s/it]                                                  {'loss': 0.8863, 'learning_rate': 0.000972719257767985, 'epoch': 0.08}
+ 13%|█▎        | 59/440 [38:09<2:12:00, 20.79s/it] 14%|█▎        | 60/440 [38:29<2:09:28, 20.44s/it]                                                  {'loss': 0.795, 'learning_rate': 0.0009715050848107167, 'epoch': 0.09}
+ 14%|█▎        | 60/440 [38:29<2:09:28, 20.44s/it] 14%|█▍        | 61/440 [38:48<2:07:35, 20.20s/it]                                                  {'loss': 0.8581, 'learning_rate': 0.0009702652690821188, 'epoch': 0.09}
+ 14%|█▍        | 61/440 [38:48<2:07:35, 20.20s/it] 14%|█▍        | 62/440 [39:08<2:06:25, 20.07s/it]                                                  {'loss': 1.0226, 'learning_rate': 0.0009689998780094837, 'epoch': 0.09}
+ 14%|█▍        | 62/440 [39:08<2:06:25, 20.07s/it] 14%|█▍        | 63/440 [39:28<2:05:22, 19.95s/it]                                                  {'loss': 1.053, 'learning_rate': 0.0009677089804110173, 'epoch': 0.09}
+ 14%|█▍        | 63/440 [39:28<2:05:22, 19.95s/it] 15%|█▍        | 64/440 [39:48<2:04:31, 19.87s/it]                                                  {'loss': 0.7626, 'learning_rate': 0.0009663926464920958, 'epoch': 0.09}
+ 15%|█▍        | 64/440 [39:48<2:04:31, 19.87s/it] 15%|█▍        | 65/440 [40:07<2:03:52, 19.82s/it]                                                  {'loss': 0.987, 'learning_rate': 0.0009650509478414482, 'epoch': 0.09}
+ 15%|█▍        | 65/440 [41:12<2:03:52, 19.82s/it] 15%|█▌        | 66/440 [41:35<4:10:56, 40.26s/it]                                                  {'loss': 0.9111, 'learning_rate': 0.0009636839574272623, 'epoch': 0.09}
+ 15%|█▌        | 66/440 [41:35<4:10:56, 40.26s/it]
+                                             [A{'eval_loss': 0.8506647944450378, 'eval_runtime': 198.0688, 'eval_samples_per_second': 1.227, 'eval_steps_per_second': 0.02, 'epoch': 0.09}
+ 15%|█▌        | 66/440 [44:53<4:10:56, 40.26s/it]
+ 15%|█▌        | 67/440 [50:15<19:04:21, 184.08s/it]                                                    {'loss': 0.9507, 'learning_rate': 0.0009622917495932171, 'epoch': 0.1}
+ 15%|█▌        | 67/440 [50:15<19:04:21, 184.08s/it] 15%|█▌        | 68/440 [50:34<13:55:12, 134.71s/it]                                                    {'loss': 0.8078, 'learning_rate': 0.0009608744000544391, 'epoch': 0.1}
+ 15%|█▌        | 68/440 [50:34<13:55:12, 134.71s/it] 16%|█▌        | 69/440 [50:54<10:19:21, 100.17s/it]                                                    {'loss': 1.0165, 'learning_rate': 0.0009594319858933848, 'epoch': 0.1}
+ 16%|█▌        | 69/440 [50:54<10:19:21, 100.17s/it] 16%|█▌        | 70/440 [51:14<7:48:49, 76.03s/it]                                                    {'loss': 0.8217, 'learning_rate': 0.000957964585555648, 'epoch': 0.1}
+ 16%|█▌        | 70/440 [51:14<7:48:49, 76.03s/it] 16%|█▌        | 71/440 [51:38<6:11:18, 60.38s/it]                                                  {'loss': 1.0496, 'learning_rate': 0.0009564722788456944, 'epoch': 0.1}
+ 16%|█▌        | 71/440 [51:38<6:11:18, 60.38s/it] 16%|█▋        | 72/440 [51:57<4:55:14, 48.14s/it]                                                  {'loss': 0.7706, 'learning_rate': 0.0009549551469225209, 'epoch': 0.1}
+ 16%|█▋        | 72/440 [51:57<4:55:14, 48.14s/it] 17%|█▋        | 73/440 [52:17<4:02:03, 39.57s/it]                                                  {'loss': 0.7388, 'learning_rate': 0.0009534132722952418, 'epoch': 0.1}
+ 17%|█▋        | 73/440 [52:17<4:02:03, 39.57s/it] 17%|█▋        | 74/440 [52:36<3:24:56, 33.60s/it]                                                  {'loss': 0.9433, 'learning_rate': 0.000951846738818602, 'epoch': 0.11}
+ 17%|█▋        | 74/440 [52:36<3:24:56, 33.60s/it] 17%|█▋        | 75/440 [52:56<2:59:00, 29.42s/it]                                                  {'loss': 1.0574, 'learning_rate': 0.0009502556316884157, 'epoch': 0.11}
+ 17%|█▋        | 75/440 [52:56<2:59:00, 29.42s/it] 17%|█▋        | 76/440 [53:16<2:40:45, 26.50s/it]                                                  {'loss': 1.0062, 'learning_rate': 0.0009486400374369339, 'epoch': 0.11}
+ 17%|█▋        | 76/440 [53:16<2:40:45, 26.50s/it] 18%|█▊        | 77/440 [53:35<2:27:53, 24.44s/it]                                                  {'loss': 0.7175, 'learning_rate': 0.0009470000439281379, 'epoch': 0.11}
+ 18%|█▊        | 77/440 [53:35<2:27:53, 24.44s/it] 18%|█▊        | 78/440 [53:55<2:18:55, 23.03s/it]                                                  {'loss': 0.831, 'learning_rate': 0.0009453357403529609, 'epoch': 0.11}
+ 18%|█▊        | 78/440 [53:55<2:18:55, 23.03s/it] 18%|█▊        | 79/440 [54:15<2:12:13, 21.98s/it]                                                  {'loss': 0.6995, 'learning_rate': 0.0009436472172244374, 'epoch': 0.11}
+ 18%|█▊        | 79/440 [54:15<2:12:13, 21.98s/it] 18%|█▊        | 80/440 [54:34<2:07:38, 21.27s/it]                                                  {'loss': 0.93, 'learning_rate': 0.0009419345663727806, 'epoch': 0.11}
+ 18%|█▊        | 80/440 [54:34<2:07:38, 21.27s/it] 18%|█▊        | 81/440 [54:54<2:04:22, 20.79s/it]                                                  {'loss': 0.7882, 'learning_rate': 0.0009401978809403882, 'epoch': 0.12}
+ 18%|█▊        | 81/440 [54:54<2:04:22, 20.79s/it] 19%|█▊        | 82/440 [55:14<2:02:06, 20.46s/it]                                                  {'loss': 0.8631, 'learning_rate': 0.000938437255376777, 'epoch': 0.12}
+ 19%|█▊        | 82/440 [55:14<2:02:06, 20.46s/it] 19%|█▉        | 83/440 [55:33<2:00:21, 20.23s/it]                                                  {'loss': 1.0263, 'learning_rate': 0.0009366527854334463, 'epoch': 0.12}
+ 19%|█▉        | 83/440 [55:33<2:00:21, 20.23s/it] 19%|█▉        | 84/440 [55:53<1:59:07, 20.08s/it]                                                  {'loss': 0.8275, 'learning_rate': 0.0009348445681586702, 'epoch': 0.12}
+ 19%|█▉        | 84/440 [55:53<1:59:07, 20.08s/it] 19%|█▉        | 85/440 [56:13<1:58:09, 19.97s/it]                                                  {'loss': 0.8885, 'learning_rate': 0.0009330127018922195, 'epoch': 0.12}
+ 19%|█▉        | 85/440 [56:13<1:58:09, 19.97s/it] 20%|█▉        | 86/440 [56:33<1:57:27, 19.91s/it]                                                  {'loss': 0.9053, 'learning_rate': 0.0009311572862600139, 'epoch': 0.12}
+ 20%|█▉        | 86/440 [56:33<1:57:27, 19.91s/it] 20%|█▉        | 87/440 [56:52<1:56:45, 19.84s/it]                                                  {'loss': 0.6543, 'learning_rate': 0.0009292784221687043, 'epoch': 0.12}
+ 20%|█▉        | 87/440 [57:54<1:56:45, 19.84s/it] 20%|██        | 88/440 [58:18<3:52:54, 39.70s/it]                                                  {'loss': 0.8806, 'learning_rate': 0.0009273762118001836, 'epoch': 0.13}
+ 20%|██        | 88/440 [58:18<3:52:54, 39.70s/it]
+                                             [A{'eval_loss': 0.8418927192687988, 'eval_runtime': 198.977, 'eval_samples_per_second': 1.221, 'eval_steps_per_second': 0.02, 'epoch': 0.13}
+ 20%|██        | 88/440 [1:01:37<3:52:54, 39.70s/it]
+ 20%|██        | 89/440 [1:06:45<17:32:05, 179.85s/it]                                                      {'loss': 0.8709, 'learning_rate': 0.000925450758606031, 'epoch': 0.13}
+ 20%|██        | 89/440 [1:06:45<17:32:05, 179.85s/it] 20%|██        | 90/440 [1:07:05<12:48:34, 131.76s/it]                                                      {'loss': 0.9902, 'learning_rate': 0.0009235021673018849, 'epoch': 0.13}
+ 20%|██        | 90/440 [1:07:05<12:48:34, 131.76s/it] 21%|██        | 91/440 [1:07:24<9:30:42, 98.12s/it]                                                      {'loss': 0.8463, 'learning_rate': 0.000921530543861748, 'epoch': 0.13}
+ 21%|██        | 91/440 [1:07:24<9:30:42, 98.12s/it] 21%|██        | 92/440 [1:07:44<7:12:29, 74.57s/it]                                                    {'loss': 0.7975, 'learning_rate': 0.0009195359955122244, 'epoch': 0.13}
+ 21%|██        | 92/440 [1:07:44<7:12:29, 74.57s/it] 21%|██        | 93/440 [1:08:03<5:35:54, 58.08s/it]                                                    {'loss': 0.7701, 'learning_rate': 0.0009175186307266877, 'epoch': 0.13}
+ 21%|██        | 93/440 [1:08:03<5:35:54, 58.08s/it] 21%|██▏       | 94/440 [1:08:23<4:28:22, 46.54s/it]                                                    {'loss': 0.8242, 'learning_rate': 0.0009154785592193819, 'epoch': 0.13}
+ 21%|██▏       | 94/440 [1:08:23<4:28:22, 46.54s/it] 22%|██▏       | 95/440 [1:08:43<3:41:09, 38.46s/it]                                                    {'loss': 0.8231, 'learning_rate': 0.0009134158919394544, 'epoch': 0.14}
+ 22%|██▏       | 95/440 [1:08:43<3:41:09, 38.46s/it] 22%|██▏       | 96/440 [1:09:02<3:08:16, 32.84s/it]                                                    {'loss': 0.8086, 'learning_rate': 0.0009113307410649221, 'epoch': 0.14}
+ 22%|██▏       | 96/440 [1:09:02<3:08:16, 32.84s/it] 22%|██▏       | 97/440 [1:09:22<2:45:13, 28.90s/it]                                                    {'loss': 0.8986, 'learning_rate': 0.0009092232199965707, 'epoch': 0.14}
+ 22%|██▏       | 97/440 [1:09:22<2:45:13, 28.90s/it] 22%|██▏       | 98/440 [1:09:42<2:28:58, 26.14s/it]                                                    {'loss': 0.9709, 'learning_rate': 0.0009070934433517872, 'epoch': 0.14}
+ 22%|██▏       | 98/440 [1:09:42<2:28:58, 26.14s/it] 22%|██▎       | 99/440 [1:10:01<2:17:26, 24.18s/it]                                                    {'loss': 0.7802, 'learning_rate': 0.0009049415269583267, 'epoch': 0.14}
+ 22%|██▎       | 99/440 [1:10:01<2:17:26, 24.18s/it] 23%|██▎       | 100/440 [1:10:21<2:09:23, 22.83s/it]                                                     {'loss': 0.6738, 'learning_rate': 0.0009027675878480131, 'epoch': 0.14}
+ 23%|██▎       | 100/440 [1:10:21<2:09:23, 22.83s/it] 23%|██▎       | 101/440 [1:10:41<2:03:40, 21.89s/it]                                                     {'loss': 0.759, 'learning_rate': 0.0009005717442503741, 'epoch': 0.14}
+ 23%|██▎       | 101/440 [1:10:41<2:03:40, 21.89s/it] 23%|██▎       | 102/440 [1:11:01<1:59:38, 21.24s/it]                                                     {'loss': 0.7239, 'learning_rate': 0.0008983541155862114, 'epoch': 0.15}
+ 23%|██▎       | 102/440 [1:11:01<1:59:38, 21.24s/it] 23%|██▎       | 103/440 [1:11:20<1:56:39, 20.77s/it]                                                     {'loss': 0.8974, 'learning_rate': 0.000896114822461106, 'epoch': 0.15}
+ 23%|██▎       | 103/440 [1:11:20<1:56:39, 20.77s/it] 24%|██▎       | 104/440 [1:11:40<1:54:31, 20.45s/it]                                                     {'loss': 0.9699, 'learning_rate': 0.0008938539866588592, 'epoch': 0.15}
+ 24%|██▎       | 104/440 [1:11:40<1:54:31, 20.45s/it] 24%|██▍       | 105/440 [1:12:00<1:52:48, 20.20s/it]                                                     {'loss': 0.8489, 'learning_rate': 0.0008915717311348692, 'epoch': 0.15}
+ 24%|██▍       | 105/440 [1:12:00<1:52:48, 20.20s/it] 24%|██▍       | 106/440 [1:12:19<1:51:31, 20.03s/it]                                                     {'loss': 0.7432, 'learning_rate': 0.0008892681800094447, 'epoch': 0.15}
+ 24%|██▍       | 106/440 [1:12:19<1:51:31, 20.03s/it] 24%|██▍       | 107/440 [1:12:39<1:50:31, 19.91s/it]                                                     {'loss': 0.805, 'learning_rate': 0.0008869434585610534, 'epoch': 0.15}
+ 24%|██▍       | 107/440 [1:12:39<1:50:31, 19.91s/it] 25%|██▍       | 108/440 [1:12:59<1:49:54, 19.86s/it]                                                     {'loss': 0.9957, 'learning_rate': 0.0008845976932195103, 'epoch': 0.15}
+ 25%|██▍       | 108/440 [1:12:59<1:49:54, 19.86s/it] 25%|██▍       | 109/440 [1:13:18<1:49:19, 19.82s/it]                                                     {'loss': 0.8647, 'learning_rate': 0.0008822310115591007, 'epoch': 0.16}
+ 25%|██▍       | 109/440 [1:14:25<1:49:19, 19.82s/it] 25%|██▌       | 110/440 [1:14:49<3:46:46, 41.23s/it]                                                     {'loss': 0.8562, 'learning_rate': 0.0008798435422916424, 'epoch': 0.16}
+ 25%|██▌       | 110/440 [1:14:49<3:46:46, 41.23s/it]
+                                             [A{'eval_loss': 0.8382232785224915, 'eval_runtime': 198.3187, 'eval_samples_per_second': 1.225, 'eval_steps_per_second': 0.02, 'epoch': 0.16}
+ 25%|██▌       | 110/440 [1:18:08<3:46:46, 41.23s/it]
+ 25%|██▌       | 111/440 [1:23:18<16:34:33, 181.38s/it]                                                       {'loss': 0.8477, 'learning_rate': 0.0008774354152594861, 'epoch': 0.16}
+ 25%|██▌       | 111/440 [1:23:18<16:34:33, 181.38s/it] 25%|██▌       | 112/440 [1:23:37<12:06:14, 132.85s/it]                                                       {'loss': 0.9371, 'learning_rate': 0.0008750067614284534, 'epoch': 0.16}
+ 25%|██▌       | 112/440 [1:23:37<12:06:14, 132.85s/it] 26%|██▌       | 113/440 [1:23:57<8:58:53, 98.88s/it]                                                       {'loss': 0.7586, 'learning_rate': 0.0008725577128807142, 'epoch': 0.16}
+ 26%|██▌       | 113/440 [1:23:57<8:58:53, 98.88s/it] 26%|██▌       | 114/440 [1:24:17<6:48:09, 75.12s/it]                                                     {'loss': 0.8575, 'learning_rate': 0.0008700884028076042, 'epoch': 0.16}
+ 26%|██▌       | 114/440 [1:24:17<6:48:09, 75.12s/it] 26%|██▌       | 115/440 [1:24:37<5:16:54, 58.51s/it]                                                     {'loss': 1.0355, 'learning_rate': 0.00086759896550238, 'epoch': 0.16}
+ 26%|██▌       | 115/440 [1:24:37<5:16:54, 58.51s/it] 26%|██▋       | 116/440 [1:24:56<4:13:02, 46.86s/it]                                                     {'loss': 0.9825, 'learning_rate': 0.0008650895363529173, 'epoch': 0.17}
+ 26%|██▋       | 116/440 [1:24:56<4:13:02, 46.86s/it] 27%|██▋       | 117/440 [1:25:16<3:28:24, 38.71s/it]                                                     {'loss': 0.767, 'learning_rate': 0.0008625602518343456, 'epoch': 0.17}
+ 27%|██▋       | 117/440 [1:25:16<3:28:24, 38.71s/it] 27%|██▋       | 118/440 [1:25:36<2:57:02, 32.99s/it]                                                     {'loss': 0.9604, 'learning_rate': 0.0008600112495016288, 'epoch': 0.17}
+ 27%|██▋       | 118/440 [1:25:36<2:57:02, 32.99s/it] 27%|██▋       | 119/440 [1:25:55<2:35:12, 29.01s/it]                                                     {'loss': 0.9031, 'learning_rate': 0.0008574426679820813, 'epoch': 0.17}
+ 27%|██▋       | 119/440 [1:25:55<2:35:12, 29.01s/it] 27%|██▋       | 120/440 [1:26:15<2:19:49, 26.22s/it]                                                     {'loss': 0.9178, 'learning_rate': 0.0008548546469678311, 'epoch': 0.17}
+ 27%|██▋       | 120/440 [1:26:15<2:19:49, 26.22s/it] 28%|██▊       | 121/440 [1:26:35<2:08:56, 24.25s/it]                                                     {'loss': 0.9583, 'learning_rate': 0.0008522473272082217, 'epoch': 0.17}
+ 28%|██▊       | 121/440 [1:26:35<2:08:56, 24.25s/it] 28%|██▊       | 122/440 [1:26:54<2:01:16, 22.88s/it]                                                     {'loss': 0.8811, 'learning_rate': 0.0008496208505021571, 'epoch': 0.17}
+ 28%|██▊       | 122/440 [1:26:54<2:01:16, 22.88s/it] 28%|██▊       | 123/440 [1:27:14<1:55:49, 21.92s/it]                                                     {'loss': 0.9292, 'learning_rate': 0.0008469753596903909, 'epoch': 0.18}
+ 28%|██▊       | 123/440 [1:27:14<1:55:49, 21.92s/it] 28%|██▊       | 124/440 [1:27:34<1:51:56, 21.26s/it]                                                     {'loss': 0.909, 'learning_rate': 0.0008443109986477573, 'epoch': 0.18}
+ 28%|██▊       | 124/440 [1:27:34<1:51:56, 21.26s/it] 28%|██▊       | 125/440 [1:27:53<1:49:10, 20.80s/it]                                                     {'loss': 0.8796, 'learning_rate': 0.0008416279122753467, 'epoch': 0.18}
+ 28%|██▊       | 125/440 [1:27:53<1:49:10, 20.80s/it] 29%|██▊       | 126/440 [1:28:13<1:47:01, 20.45s/it]                                                     {'loss': 0.8533, 'learning_rate': 0.0008389262464926256, 'epoch': 0.18}
+ 29%|██▊       | 126/440 [1:28:13<1:47:01, 20.45s/it] 29%|██▉       | 127/440 [1:28:33<1:45:25, 20.21s/it]                                                     {'loss': 0.834, 'learning_rate': 0.0008362061482295, 'epoch': 0.18}
+ 29%|██▉       | 127/440 [1:28:33<1:45:25, 20.21s/it] 29%|██▉       | 128/440 [1:28:52<1:44:21, 20.07s/it]                                                     {'loss': 0.9338, 'learning_rate': 0.0008334677654183254, 'epoch': 0.18}
+ 29%|██▉       | 128/440 [1:28:52<1:44:21, 20.07s/it] 29%|██▉       | 129/440 [1:29:12<1:43:30, 19.97s/it]                                                     {'loss': 1.0361, 'learning_rate': 0.0008307112469858608, 'epoch': 0.18}
+ 29%|██▉       | 129/440 [1:29:12<1:43:30, 19.97s/it] 30%|██▉       | 130/440 [1:29:32<1:42:39, 19.87s/it]                                                     {'loss': 0.714, 'learning_rate': 0.0008279367428451702, 'epoch': 0.19}
+ 30%|██▉       | 130/440 [1:29:32<1:42:39, 19.87s/it] 30%|██▉       | 131/440 [1:29:52<1:42:05, 19.82s/it]                                                     {'loss': 0.8434, 'learning_rate': 0.0008251444038874685, 'epoch': 0.19}
+ 30%|██▉       | 131/440 [1:30:56<1:42:05, 19.82s/it] 30%|███       | 132/440 [1:31:16<3:21:00, 39.16s/it]                                                     {'loss': 0.9724, 'learning_rate': 0.0008223343819739164, 'epoch': 0.19}
+ 30%|███       | 132/440 [1:31:16<3:21:00, 39.16s/it]
+                                             [A{'eval_loss': 0.8383190035820007, 'eval_runtime': 199.7947, 'eval_samples_per_second': 1.216, 'eval_steps_per_second': 0.02, 'epoch': 0.19}
+ 30%|███       | 132/440 [1:34:36<3:21:00, 39.16s/it]
+ 30%|███       | 133/440 [1:39:53<15:33:39, 182.47s/it]                                                       {'loss': 1.0675, 'learning_rate': 0.0008195068299273608, 'epoch': 0.19}
+ 30%|███       | 133/440 [1:39:53<15:33:39, 182.47s/it] 30%|███       | 134/440 [1:40:12<11:21:21, 133.60s/it]                                                       {'loss': 0.8466, 'learning_rate': 0.0008166619015240235, 'epoch': 0.19}
+ 30%|███       | 134/440 [1:40:12<11:21:21, 133.60s/it] 31%|███       | 135/440 [1:40:32<8:25:22, 99.42s/it]                                                       {'loss': 0.9544, 'learning_rate': 0.0008137997514851385, 'epoch': 0.19}
+ 31%|███       | 135/440 [1:40:32<8:25:22, 99.42s/it] 31%|███       | 136/440 [1:40:52<6:22:35, 75.51s/it]                                                     {'loss': 1.0242, 'learning_rate': 0.0008109205354685367, 'epoch': 0.19}
+ 31%|███       | 136/440 [1:40:52<6:22:35, 75.51s/it] 31%|███       | 137/440 [1:41:11<4:56:47, 58.77s/it]                                                     {'loss': 1.0109, 'learning_rate': 0.0008080244100601822, 'epoch': 0.2}
+ 31%|███       | 137/440 [1:41:11<4:56:47, 58.77s/it] 31%|███▏      | 138/440 [1:41:31<3:56:47, 47.05s/it]                                                     {'loss': 0.9459, 'learning_rate': 0.0008051115327656537, 'epoch': 0.2}
+ 31%|███▏      | 138/440 [1:41:31<3:56:47, 47.05s/it] 32%|███▏      | 139/440 [1:41:51<3:14:44, 38.82s/it]                                                     {'loss': 0.938, 'learning_rate': 0.0008021820620015812, 'epoch': 0.2}
+ 32%|███▏      | 139/440 [1:41:51<3:14:44, 38.82s/it] 32%|███▏      | 140/440 [1:42:11<2:45:51, 33.17s/it]                                                     {'loss': 0.9143, 'learning_rate': 0.0007992361570870288, 'epoch': 0.2}
+ 32%|███▏      | 140/440 [1:42:11<2:45:51, 33.17s/it] 32%|███▏      | 141/440 [1:42:30<2:25:09, 29.13s/it]                                                     {'loss': 0.9476, 'learning_rate': 0.0007962739782348309, 'epoch': 0.2}
+ 32%|███▏      | 141/440 [1:42:30<2:25:09, 29.13s/it] 32%|███▏      | 142/440 [1:42:50<2:10:42, 26.32s/it]                                                     {'loss': 1.0886, 'learning_rate': 0.000793295686542879, 'epoch': 0.2}
+ 32%|███▏      | 142/440 [1:42:50<2:10:42, 26.32s/it] 32%|███▎      | 143/440 [1:43:10<2:00:23, 24.32s/it]                                                     {'loss': 1.0335, 'learning_rate': 0.0007903014439853604, 'epoch': 0.2}
+ 32%|███▎      | 143/440 [1:43:10<2:00:23, 24.32s/it] 33%|███▎      | 144/440 [1:43:30<1:53:12, 22.95s/it]                                                     {'loss': 0.7305, 'learning_rate': 0.0007872914134039484, 'epoch': 0.21}
+ 33%|███▎      | 144/440 [1:43:30<1:53:12, 22.95s/it] 33%|███▎      | 145/440 [1:43:49<1:48:04, 21.98s/it]                                                     {'loss': 0.9467, 'learning_rate': 0.0007842657584989477, 'epoch': 0.21}
+ 33%|███▎      | 145/440 [1:43:49<1:48:04, 21.98s/it] 33%|███▎      | 146/440 [1:44:09<1:44:19, 21.29s/it]                                                     {'loss': 0.837, 'learning_rate': 0.0007812246438203904, 'epoch': 0.21}
+ 33%|███▎      | 146/440 [1:44:09<1:44:19, 21.29s/it] 33%|███▎      | 147/440 [1:44:29<1:41:37, 20.81s/it]                                                     {'loss': 0.9638, 'learning_rate': 0.000778168234759087, 'epoch': 0.21}
+ 33%|███▎      | 147/440 [1:44:29<1:41:37, 20.81s/it] 34%|███▎      | 148/440 [1:44:48<1:39:42, 20.49s/it]                                                     {'loss': 1.0294, 'learning_rate': 0.0007750966975376328, 'epoch': 0.21}
+ 34%|███▎      | 148/440 [1:44:48<1:39:42, 20.49s/it] 34%|███▍      | 149/440 [1:45:08<1:38:09, 20.24s/it]                                                     {'loss': 0.8091, 'learning_rate': 0.0007720101992013662, 'epoch': 0.21}
+ 34%|███▍      | 149/440 [1:45:08<1:38:09, 20.24s/it] 34%|███▍      | 150/440 [1:45:28<1:36:58, 20.07s/it]                                                     {'loss': 0.6937, 'learning_rate': 0.000768908907609285, 'epoch': 0.21}
+ 34%|███▍      | 150/440 [1:45:28<1:36:58, 20.07s/it] 34%|███▍      | 151/440 [1:45:47<1:36:01, 19.94s/it]                                                     {'loss': 0.97, 'learning_rate': 0.0007657929914249177, 'epoch': 0.22}
+ 34%|███▍      | 151/440 [1:45:47<1:36:01, 19.94s/it] 35%|███▍      | 152/440 [1:46:07<1:35:17, 19.85s/it]                                                     {'loss': 0.8536, 'learning_rate': 0.0007626626201071493, 'epoch': 0.22}
+ 35%|███▍      | 152/440 [1:46:07<1:35:17, 19.85s/it] 35%|███▍      | 153/440 [1:46:27<1:34:47, 19.82s/it]                                                     {'loss': 0.9457, 'learning_rate': 0.0007595179639010074, 'epoch': 0.22}
+ 35%|███▍      | 153/440 [1:47:32<1:34:47, 19.82s/it] 35%|███▌      | 154/440 [1:47:52<3:07:39, 39.37s/it]                                                     {'loss': 0.9019, 'learning_rate': 0.0007563591938284011, 'epoch': 0.22}
+ 35%|███▌      | 154/440 [1:47:52<3:07:39, 39.37s/it]
+                                             [A{'eval_loss': 0.8353478908538818, 'eval_runtime': 198.3568, 'eval_samples_per_second': 1.225, 'eval_steps_per_second': 0.02, 'epoch': 0.22}
+ 35%|███▌      | 154/440 [1:51:10<3:07:39, 39.37s/it]
+ 35%|███▌      | 155/440 [1:56:24<14:21:11, 181.30s/it]                                                       {'loss': 0.9102, 'learning_rate': 0.000753186481678822, 'epoch': 0.22}
+ 35%|███▌      | 155/440 [1:56:24<14:21:11, 181.30s/it] 35%|███▌      | 156/440 [1:56:44<10:28:37, 132.81s/it]                                                       {'loss': 0.897, 'learning_rate': 0.00075, 'epoch': 0.22}
+ 35%|███▌      | 156/440 [1:56:44<10:28:37, 132.81s/it] 36%|███▌      | 157/440 [1:57:03<7:46:14, 98.85s/it]                                                       {'loss': 1.0225, 'learning_rate': 0.0007467999220885204, 'epoch': 0.22}
+ 36%|███▌      | 157/440 [1:57:03<7:46:14, 98.85s/it] 36%|███▌      | 158/440 [1:57:23<5:52:59, 75.10s/it]                                                     {'loss': 0.9271, 'learning_rate': 0.0007435864219803983, 'epoch': 0.23}
+ 36%|███▌      | 158/440 [1:57:23<5:52:59, 75.10s/it] 36%|███▌      | 159/440 [1:57:43<4:33:44, 58.45s/it]                                                     {'loss': 0.6627, 'learning_rate': 0.0007403596744416141, 'epoch': 0.23}
+ 36%|███▌      | 159/440 [1:57:43<4:33:44, 58.45s/it] 36%|███▋      | 160/440 [1:58:02<3:38:29, 46.82s/it]                                                     {'loss': 1.048, 'learning_rate': 0.0007371198549586091, 'epoch': 0.23}
+ 36%|███▋      | 160/440 [1:58:02<3:38:29, 46.82s/it] 37%|███▋      | 161/440 [1:58:22<2:59:51, 38.68s/it]                                                     {'loss': 0.8551, 'learning_rate': 0.0007338671397287409, 'epoch': 0.23}
+ 37%|███▋      | 161/440 [1:58:22<2:59:51, 38.68s/it] 37%|███▋      | 162/440 [1:58:42<2:32:50, 32.99s/it]                                                     {'loss': 0.8075, 'learning_rate': 0.0007306017056507017, 'epoch': 0.23}
+ 37%|███▋      | 162/440 [1:58:42<2:32:50, 32.99s/it] 37%|███▋      | 163/440 [1:59:02<2:13:55, 29.01s/it]                                                     {'loss': 0.9493, 'learning_rate': 0.0007273237303148975, 'epoch': 0.23}
+ 37%|███▋      | 163/440 [1:59:02<2:13:55, 29.01s/it] 37%|███▋      | 164/440 [1:59:21<2:00:36, 26.22s/it]                                                     {'loss': 0.9591, 'learning_rate': 0.0007240333919937892, 'epoch': 0.23}
+ 37%|███▋      | 164/440 [1:59:21<2:00:36, 26.22s/it] 38%|███▊      | 165/440 [1:59:41<1:51:17, 24.28s/it]                                                     {'loss': 0.9154, 'learning_rate': 0.0007207308696321984, 'epoch': 0.24}
+ 38%|███▊      | 165/440 [1:59:41<1:51:17, 24.28s/it] 38%|███▊      | 166/440 [2:00:01<1:44:32, 22.89s/it]                                                     {'loss': 0.8273, 'learning_rate': 0.0007174163428375748, 'epoch': 0.24}
+ 38%|███▊      | 166/440 [2:00:01<1:44:32, 22.89s/it] 38%|███▊      | 167/440 [2:00:20<1:39:49, 21.94s/it]                                                     {'loss': 0.9597, 'learning_rate': 0.0007140899918702276, 'epoch': 0.24}
+ 38%|███▊      | 167/440 [2:00:20<1:39:49, 21.94s/it] 38%|███▊      | 168/440 [2:00:40<1:36:29, 21.28s/it]                                                     {'loss': 0.8848, 'learning_rate': 0.0007107519976335241, 'epoch': 0.24}
+ 38%|███▊      | 168/440 [2:00:40<1:36:29, 21.28s/it] 38%|███▊      | 169/440 [2:01:00<1:33:52, 20.79s/it]                                                     {'loss': 0.7323, 'learning_rate': 0.0007074025416640488, 'epoch': 0.24}
+ 38%|███▊      | 169/440 [2:01:00<1:33:52, 20.79s/it][2024-01-10 10:04:29,781] [WARNING] [stage3.py:1991:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
+ 39%|███▊      | 170/440 [2:01:20<1:32:38, 20.59s/it]                                                     {'loss': 0.8357, 'learning_rate': 0.0007040418061217324, 'epoch': 0.24}
+ 39%|███▊      | 170/440 [2:01:20<1:32:38, 20.59s/it] 39%|███▉      | 171/440 [2:01:40<1:31:09, 20.33s/it]                                                     {'loss': 0.939, 'learning_rate': 0.0007006699737799445, 'epoch': 0.24}
+ 39%|███▉      | 171/440 [2:01:40<1:31:09, 20.33s/it] 39%|███▉      | 172/440 [2:01:59<1:29:55, 20.13s/it]                                                     {'loss': 0.9856, 'learning_rate': 0.0006972872280155528, 'epoch': 0.25}
+ 39%|███▉      | 172/440 [2:01:59<1:29:55, 20.13s/it] 39%|███▉      | 173/440 [2:02:19<1:28:54, 19.98s/it]                                                     {'loss': 1.0087, 'learning_rate': 0.0006938937527989511, 'epoch': 0.25}
+ 39%|███▉      | 173/440 [2:02:19<1:28:54, 19.98s/it] 40%|███▉      | 174/440 [2:02:39<1:28:10, 19.89s/it]                                                     {'loss': 0.8061, 'learning_rate': 0.0006904897326840537, 'epoch': 0.25}
+ 40%|███▉      | 174/440 [2:02:39<1:28:10, 19.89s/it] 40%|███▉      | 175/440 [2:02:58<1:27:36, 19.84s/it]                                                     {'loss': 0.787, 'learning_rate': 0.0006870753527982584, 'epoch': 0.25}
+ 40%|███▉      | 175/440 [2:03:59<1:27:36, 19.84s/it] 40%|████      | 176/440 [2:04:22<2:51:05, 38.89s/it]                                                     {'loss': 0.9993, 'learning_rate': 0.0006836507988323784, 'epoch': 0.25}
+ 40%|████      | 176/440 [2:04:22<2:51:05, 38.89s/it]
+                                             [A{'eval_loss': 0.8305180668830872, 'eval_runtime': 199.5085, 'eval_samples_per_second': 1.218, 'eval_steps_per_second': 0.02, 'epoch': 0.25}
+ 40%|████      | 176/440 [2:07:41<2:51:05, 38.89s/it]
+ 40%|████      | 177/440 [2:12:56<13:16:19, 181.67s/it]                                                       {'loss': 0.8644, 'learning_rate': 0.0006802162570305435, 'epoch': 0.25}
+ 40%|████      | 177/440 [2:12:56<13:16:19, 181.67s/it] 40%|████      | 178/440 [2:13:16<9:40:56, 133.04s/it]                                                       {'loss': 0.822, 'learning_rate': 0.0006767719141800718, 'epoch': 0.25}
+ 40%|████      | 178/440 [2:13:16<9:40:56, 133.04s/it] 41%|████      | 179/440 [2:13:36<7:10:41, 99.01s/it]                                                      {'loss': 0.9733, 'learning_rate': 0.0006733179576013098, 'epoch': 0.26}
+ 41%|████      | 179/440 [2:13:36<7:10:41, 99.01s/it] 41%|████      | 180/440 [2:13:55<5:25:56, 75.22s/it]                                                     {'loss': 0.9284, 'learning_rate': 0.0006698545751374465, 'epoch': 0.26}
+ 41%|████      | 180/440 [2:13:55<5:25:56, 75.22s/it] 41%|████      | 181/440 [2:14:16<4:13:32, 58.74s/it]                                                     {'loss': 1.0302, 'learning_rate': 0.0006663819551442968, 'epoch': 0.26}
+ 41%|████      | 181/440 [2:14:16<4:13:32, 58.74s/it] 41%|████▏     | 182/440 [2:14:35<3:22:09, 47.01s/it]                                                     {'loss': 0.8259, 'learning_rate': 0.0006629002864800589, 'epoch': 0.26}
+ 41%|████▏     | 182/440 [2:14:35<3:22:09, 47.01s/it] 42%|████▏     | 183/440 [2:14:55<2:46:14, 38.81s/it]                                                     {'loss': 0.8742, 'learning_rate': 0.0006594097584950406, 'epoch': 0.26}
+ 42%|████▏     | 183/440 [2:14:55<2:46:14, 38.81s/it] 42%|████▏     | 184/440 [2:15:15<2:21:10, 33.09s/it]                                                     {'loss': 0.9389, 'learning_rate': 0.0006559105610213649, 'epoch': 0.26}
+ 42%|████▏     | 184/440 [2:15:15<2:21:10, 33.09s/it] 42%|████▏     | 185/440 [2:15:34<2:03:35, 29.08s/it]                                                     {'loss': 0.9038, 'learning_rate': 0.0006524028843626433, 'epoch': 0.26}
+ 42%|████▏     | 185/440 [2:15:34<2:03:35, 29.08s/it] 42%|████▏     | 186/440 [2:15:54<1:51:15, 26.28s/it]                                                     {'loss': 0.7891, 'learning_rate': 0.0006488869192836278, 'epoch': 0.27}
+ 42%|████▏     | 186/440 [2:15:54<1:51:15, 26.28s/it] 42%|████▎     | 187/440 [2:16:14<1:42:31, 24.31s/it]                                                     {'loss': 1.035, 'learning_rate': 0.0006453628569998353, 'epoch': 0.27}
+ 42%|████▎     | 187/440 [2:16:14<1:42:31, 24.31s/it] 43%|████▎     | 188/440 [2:16:34<1:36:19, 22.94s/it]                                                     {'loss': 1.0101, 'learning_rate': 0.0006418308891671484, 'epoch': 0.27}
+ 43%|████▎     | 188/440 [2:16:34<1:36:19, 22.94s/it] 43%|████▎     | 189/440 [2:16:53<1:31:54, 21.97s/it]                                                     {'loss': 0.9832, 'learning_rate': 0.000638291207871393, 'epoch': 0.27}
+ 43%|████▎     | 189/440 [2:16:53<1:31:54, 21.97s/it] 43%|████▎     | 190/440 [2:17:16<1:33:00, 22.32s/it]                                                     {'loss': 0.9621, 'learning_rate': 0.0006347440056178904, 'epoch': 0.27}
+ 43%|████▎     | 190/440 [2:17:16<1:33:00, 22.32s/it] 43%|████▎     | 191/440 [2:17:36<1:29:18, 21.52s/it]                                                     {'loss': 0.9023, 'learning_rate': 0.0006311894753209896, 'epoch': 0.27}
+ 43%|████▎     | 191/440 [2:17:36<1:29:18, 21.52s/it] 44%|████▎     | 192/440 [2:17:56<1:26:40, 20.97s/it]                                                     {'loss': 0.7361, 'learning_rate': 0.000627627810293574, 'epoch': 0.27}
+ 44%|████▎     | 192/440 [2:17:56<1:26:40, 20.97s/it] 44%|████▍     | 193/440 [2:18:15<1:24:44, 20.59s/it]                                                     {'loss': 0.7999, 'learning_rate': 0.0006240592042365488, 'epoch': 0.28}
+ 44%|████▍     | 193/440 [2:18:15<1:24:44, 20.59s/it] 44%|████▍     | 194/440 [2:18:35<1:23:22, 20.34s/it]                                                     {'loss': 0.8083, 'learning_rate': 0.0006204838512283071, 'epoch': 0.28}
+ 44%|████▍     | 194/440 [2:18:35<1:23:22, 20.34s/it] 44%|████▍     | 195/440 [2:18:55<1:22:13, 20.14s/it]                                                     {'loss': 0.9799, 'learning_rate': 0.0006169019457141745, 'epoch': 0.28}
+ 44%|████▍     | 195/440 [2:18:55<1:22:13, 20.14s/it] 45%|████▍     | 196/440 [2:19:15<1:21:18, 20.00s/it]                                                     {'loss': 1.0208, 'learning_rate': 0.0006133136824958334, 'epoch': 0.28}
+ 45%|████▍     | 196/440 [2:19:15<1:21:18, 20.00s/it] 45%|████▍     | 197/440 [2:19:34<1:20:32, 19.89s/it]                                                     {'loss': 0.8, 'learning_rate': 0.0006097192567207304, 'epoch': 0.28}
+ 45%|████▍     | 197/440 [2:20:32<1:20:32, 19.89s/it] 45%|████▌     | 198/440 [2:20:56<2:34:43, 38.36s/it]                                                     {'loss': 0.8844, 'learning_rate': 0.0006061188638714616, 'epoch': 0.28}
+ 45%|████▌     | 198/440 [2:20:56<2:34:43, 38.36s/it]
+                                             [A{'eval_loss': 0.8291265368461609, 'eval_runtime': 200.4805, 'eval_samples_per_second': 1.212, 'eval_steps_per_second': 0.02, 'epoch': 0.28}
+ 45%|████▌     | 198/440 [2:24:16<2:34:43, 38.36s/it]
+ 45%|████▌     | 199/440 [2:29:15<11:50:06, 176.79s/it]                                                       {'loss': 1.0786, 'learning_rate': 0.0006025126997551426, 'epoch': 0.28}
+ 45%|████▌     | 199/440 [2:29:15<11:50:06, 176.79s/it] 45%|████▌     | 200/440 [2:29:35<8:38:30, 129.63s/it]                                                       {'loss': 0.7806, 'learning_rate': 0.0005989009604927587, 'epoch': 0.29}
+ 45%|████▌     | 200/440 [2:29:35<8:38:30, 129.63s/it] 46%|████▌     | 201/440 [2:29:55<6:24:53, 96.62s/it]                                                      {'loss': 0.8774, 'learning_rate': 0.000595283842508499, 'epoch': 0.29}
+ 46%|████▌     | 201/440 [2:29:55<6:24:53, 96.62s/it] 46%|████▌     | 202/440 [2:30:14<4:51:44, 73.55s/it]                                                     {'loss': 0.7822, 'learning_rate': 0.0005916615425190743, 'epoch': 0.29}
+ 46%|████▌     | 202/440 [2:30:14<4:51:44, 73.55s/it] 46%|████▌     | 203/440 [2:30:34<3:46:38, 57.38s/it]                                                     {'loss': 0.9135, 'learning_rate': 0.0005880342575230181, 'epoch': 0.29}
+ 46%|████▌     | 203/440 [2:30:34<3:46:38, 57.38s/it] 46%|████▋     | 204/440 [2:30:54<3:01:16, 46.09s/it]                                                     {'loss': 1.0376, 'learning_rate': 0.0005844021847899734, 'epoch': 0.29}
+ 46%|████▋     | 204/440 [2:30:54<3:01:16, 46.09s/it] 47%|████▋     | 205/440 [2:31:13<2:29:32, 38.18s/it]                                                     {'loss': 1.0092, 'learning_rate': 0.0005807655218499639, 'epoch': 0.29}
+ 47%|████▋     | 205/440 [2:31:14<2:29:32, 38.18s/it] 47%|████▋     | 206/440 [2:31:33<2:07:15, 32.63s/it]                                                     {'loss': 0.848, 'learning_rate': 0.0005771244664826512, 'epoch': 0.29}
+ 47%|████▋     | 206/440 [2:31:33<2:07:15, 32.63s/it] 47%|████▋     | 207/440 [2:31:53<1:51:41, 28.76s/it]                                                     {'loss': 0.6886, 'learning_rate': 0.0005734792167065789, 'epoch': 0.3}
+ 47%|████▋     | 207/440 [2:31:53<1:51:41, 28.76s/it] 47%|████▋     | 208/440 [2:32:13<1:40:46, 26.06s/it]                                                     {'loss': 0.8953, 'learning_rate': 0.000569829970768403, 'epoch': 0.3}
+ 47%|████▋     | 208/440 [2:32:13<1:40:46, 26.06s/it] 48%|████▊     | 209/440 [2:32:32<1:33:00, 24.16s/it]                                                     {'loss': 0.8413, 'learning_rate': 0.0005661769271321114, 'epoch': 0.3}
+ 48%|████▊     | 209/440 [2:32:32<1:33:00, 24.16s/it] 48%|████▊     | 210/440 [2:32:52<1:27:32, 22.84s/it]                                                     {'loss': 0.9042, 'learning_rate': 0.000562520284468228, 'epoch': 0.3}
+ 48%|████▊     | 210/440 [2:32:52<1:27:32, 22.84s/it] 48%|████▊     | 211/440 [2:33:12<1:23:33, 21.89s/it]                                                     {'loss': 0.8956, 'learning_rate': 0.0005588602416430106, 'epoch': 0.3}
+ 48%|████▊     | 211/440 [2:33:12<1:23:33, 21.89s/it] 48%|████▊     | 212/440 [2:33:32<1:20:41, 21.23s/it]                                                     {'loss': 0.866, 'learning_rate': 0.000555196997707635, 'epoch': 0.3}
+ 48%|████▊     | 212/440 [2:33:32<1:20:41, 21.23s/it] 48%|████▊     | 213/440 [2:33:51<1:18:35, 20.77s/it]                                                     {'loss': 0.935, 'learning_rate': 0.0005515307518873676, 'epoch': 0.3}
+ 48%|████▊     | 213/440 [2:33:51<1:18:35, 20.77s/it] 49%|████▊     | 214/440 [2:34:11<1:17:01, 20.45s/it]                                                     {'loss': 0.8526, 'learning_rate': 0.0005478617035707338, 'epoch': 0.31}
+ 49%|████▊     | 214/440 [2:34:11<1:17:01, 20.45s/it] 49%|████▉     | 215/440 [2:34:31<1:15:46, 20.21s/it]                                                     {'loss': 0.8174, 'learning_rate': 0.0005441900522986712, 'epoch': 0.31}
+ 49%|████▉     | 215/440 [2:34:31<1:15:46, 20.21s/it] 49%|████▉     | 216/440 [2:34:50<1:14:54, 20.06s/it]                                                     {'loss': 0.9946, 'learning_rate': 0.00054051599775368, 'epoch': 0.31}
+ 49%|████▉     | 216/440 [2:34:50<1:14:54, 20.06s/it] 49%|████▉     | 217/440 [2:35:10<1:14:09, 19.95s/it]                                                     {'loss': 0.9448, 'learning_rate': 0.0005368397397489614, 'epoch': 0.31}
+ 49%|████▉     | 217/440 [2:35:10<1:14:09, 19.95s/it] 50%|████▉     | 218/440 [2:35:30<1:13:36, 19.89s/it]                                                     {'loss': 0.7991, 'learning_rate': 0.000533161478217552, 'epoch': 0.31}
+ 50%|████▉     | 218/440 [2:35:30<1:13:36, 19.89s/it] 50%|████▉     | 219/440 [2:35:49<1:13:03, 19.84s/it]                                                     {'loss': 0.9548, 'learning_rate': 0.0005294814132014503, 'epoch': 0.31}
+ 50%|████▉     | 219/440 [2:36:51<1:13:03, 19.84s/it] 50%|█████     | 220/440 [2:37:11<2:20:34, 38.34s/it]                                                     {'loss': 0.9932, 'learning_rate': 0.0005257997448407366, 'epoch': 0.31}
+ 50%|█████     | 220/440 [2:37:11<2:20:34, 38.34s/it]
+                                             [A{'eval_loss': 0.8273673057556152, 'eval_runtime': 194.7517, 'eval_samples_per_second': 1.248, 'eval_steps_per_second': 0.021, 'epoch': 0.31}
+ 50%|█████     | 220/440 [2:40:26<2:20:34, 38.34s/it]
+ 50%|█████     | 221/440 [2:45:25<10:38:28, 174.92s/it]                                                       {'loss': 1.0356, 'learning_rate': 0.0005221166733626894, 'epoch': 0.32}
+ 50%|█████     | 221/440 [2:45:25<10:38:28, 174.92s/it] 50%|█████     | 222/440 [2:45:44<7:46:11, 128.31s/it]                                                       {'loss': 1.0118, 'learning_rate': 0.0005184323990708958, 'epoch': 0.32}
+ 50%|█████     | 222/440 [2:45:44<7:46:11, 128.31s/it] 51%|█████     | 223/440 [2:46:04<5:46:13, 95.73s/it]                                                      {'loss': 0.9392, 'learning_rate': 0.0005147471223343572, 'epoch': 0.32}
+ 51%|█████     | 223/440 [2:46:04<5:46:13, 95.73s/it] 51%|█████     | 224/440 [2:46:24<4:22:29, 72.91s/it]                                                     {'loss': 0.7019, 'learning_rate': 0.0005110610435765934, 'epoch': 0.32}
+ 51%|█████     | 224/440 [2:46:24<4:22:29, 72.91s/it] 51%|█████     | 225/440 [2:46:43<3:23:59, 56.93s/it]                                                     {'loss': 0.7316, 'learning_rate': 0.0005073743632647422, 'epoch': 0.32}
+ 51%|█████     | 225/440 [2:46:43<3:23:59, 56.93s/it] 51%|█████▏    | 226/440 [2:47:03<2:43:06, 45.73s/it]                                                     {'loss': 0.7109, 'learning_rate': 0.0005036872818986562, 'epoch': 0.32}
+ 51%|█████▏    | 226/440 [2:47:03<2:43:06, 45.73s/it] 52%|█████▏    | 227/440 [2:47:22<2:14:37, 37.92s/it]                                                     {'loss': 1.2264, 'learning_rate': 0.0005, 'epoch': 0.32}
+ 52%|█████▏    | 227/440 [2:47:22<2:14:37, 37.92s/it] 52%|█████▏    | 228/440 [2:47:42<1:54:33, 32.42s/it]                                                     {'loss': 0.8445, 'learning_rate': 0.0004963127181013437, 'epoch': 0.33}
+ 52%|█████▏    | 228/440 [2:47:42<1:54:33, 32.42s/it] 52%|█████▏    | 229/440 [2:48:02<1:40:34, 28.60s/it]                                                     {'loss': 0.8984, 'learning_rate': 0.000492625636735258, 'epoch': 0.33}
+ 52%|█████▏    | 229/440 [2:48:02<1:40:34, 28.60s/it] 52%|█████▏    | 230/440 [2:48:21<1:30:45, 25.93s/it]                                                     {'loss': 0.8993, 'learning_rate': 0.0004889389564234067, 'epoch': 0.33}
+ 52%|█████▏    | 230/440 [2:48:21<1:30:45, 25.93s/it] 52%|█████▎    | 231/440 [2:48:41<1:23:48, 24.06s/it]                                                     {'loss': 0.8033, 'learning_rate': 0.0004852528776656428, 'epoch': 0.33}
+ 52%|█████▎    | 231/440 [2:48:41<1:23:48, 24.06s/it] 53%|█████▎    | 232/440 [2:49:01<1:18:53, 22.76s/it]                                                     {'loss': 0.9572, 'learning_rate': 0.0004815676009291044, 'epoch': 0.33}
+ 53%|█████▎    | 232/440 [2:49:01<1:18:53, 22.76s/it] 53%|█████▎    | 233/440 [2:49:21<1:15:23, 21.85s/it]                                                     {'loss': 0.9137, 'learning_rate': 0.00047788332663731064, 'epoch': 0.33}
+ 53%|█████▎    | 233/440 [2:49:21<1:15:23, 21.85s/it] 53%|█████▎    | 234/440 [2:49:40<1:12:46, 21.20s/it]                                                     {'loss': 0.9789, 'learning_rate': 0.00047420025515926344, 'epoch': 0.33}
+ 53%|█████▎    | 234/440 [2:49:40<1:12:46, 21.20s/it] 53%|█████▎    | 235/440 [2:50:00<1:10:49, 20.73s/it]                                                     {'loss': 0.8417, 'learning_rate': 0.0004705185867985498, 'epoch': 0.34}
+ 53%|█████▎    | 235/440 [2:50:00<1:10:49, 20.73s/it] 54%|█████▎    | 236/440 [2:50:20<1:09:29, 20.44s/it]                                                     {'loss': 0.7711, 'learning_rate': 0.00046683852178244816, 'epoch': 0.34}
+ 54%|█████▎    | 236/440 [2:50:20<1:09:29, 20.44s/it] 54%|█████▍    | 237/440 [2:50:39<1:08:20, 20.20s/it]                                                     {'loss': 0.8608, 'learning_rate': 0.00046316026025103877, 'epoch': 0.34}
+ 54%|█████▍    | 237/440 [2:50:39<1:08:20, 20.20s/it] 54%|█████▍    | 238/440 [2:50:59<1:07:33, 20.07s/it]                                                     {'loss': 0.8998, 'learning_rate': 0.00045948400224632, 'epoch': 0.34}
+ 54%|█████▍    | 238/440 [2:50:59<1:07:33, 20.07s/it] 54%|█████▍    | 239/440 [2:51:19<1:06:48, 19.94s/it]                                                     {'loss': 0.7975, 'learning_rate': 0.0004558099477013288, 'epoch': 0.34}
+ 54%|█████▍    | 239/440 [2:51:19<1:06:48, 19.94s/it] 55%|█████▍    | 240/440 [2:51:38<1:06:14, 19.87s/it]                                                     {'loss': 1.0517, 'learning_rate': 0.0004521382964292663, 'epoch': 0.34}
+ 55%|█████▍    | 240/440 [2:51:38<1:06:14, 19.87s/it] 55%|█████▍    | 241/440 [2:51:58<1:05:46, 19.83s/it]                                                     {'loss': 0.8474, 'learning_rate': 0.0004484692481126323, 'epoch': 0.34}
+ 55%|█████▍    | 241/440 [2:53:01<1:05:46, 19.83s/it] 55%|█████▌    | 242/440 [2:53:21<2:07:37, 38.67s/it]                                                     {'loss': 1.0245, 'learning_rate': 0.0004448030022923652, 'epoch': 0.35}
+ 55%|█████▌    | 242/440 [2:53:21<2:07:37, 38.67s/it]
+                                             [A{'eval_loss': 0.8256015777587891, 'eval_runtime': 201.7956, 'eval_samples_per_second': 1.204, 'eval_steps_per_second': 0.02, 'epoch': 0.35}
+ 55%|█████▌    | 242/440 [2:56:43<2:07:37, 38.67s/it]
+ 55%|█████▌    | 243/440 [3:02:05<10:05:41, 184.47s/it]                                                       {'loss': 0.8041, 'learning_rate': 0.0004411397583569894, 'epoch': 0.35}
+ 55%|█████▌    | 243/440 [3:02:05<10:05:41, 184.47s/it] 55%|█████▌    | 244/440 [3:02:25<7:21:01, 135.01s/it]                                                       {'loss': 0.8956, 'learning_rate': 0.00043747971553177213, 'epoch': 0.35}
+ 55%|█████▌    | 244/440 [3:02:25<7:21:01, 135.01s/it] 56%|█████▌    | 245/440 [3:02:45<5:26:14, 100.38s/it]                                                      {'loss': 0.7662, 'learning_rate': 0.0004338230728678888, 'epoch': 0.35}
+ 56%|█████▌    | 245/440 [3:02:45<5:26:14, 100.38s/it] 56%|█████▌    | 246/440 [3:03:04<4:06:16, 76.17s/it]                                                      {'loss': 0.8227, 'learning_rate': 0.00043017002923159697, 'epoch': 0.35}
+ 56%|█████▌    | 246/440 [3:03:04<4:06:16, 76.17s/it] 56%|█████▌    | 247/440 [3:03:24<3:10:24, 59.19s/it]                                                     {'loss': 0.9135, 'learning_rate': 0.0004265207832934212, 'epoch': 0.35}
+ 56%|█████▌    | 247/440 [3:03:24<3:10:24, 59.19s/it] 56%|█████▋    | 248/440 [3:03:44<2:31:30, 47.35s/it]                                                     {'loss': 0.9038, 'learning_rate': 0.00042287553351734875, 'epoch': 0.35}
+ 56%|█████▋    | 248/440 [3:03:44<2:31:30, 47.35s/it] 57%|█████▋    | 249/440 [3:04:03<2:04:15, 39.04s/it]                                                     {'loss': 0.7622, 'learning_rate': 0.00041923447815003616, 'epoch': 0.36}
+ 57%|█████▋    | 249/440 [3:04:03<2:04:15, 39.04s/it] 57%|█████▋    | 250/440 [3:04:23<1:45:16, 33.24s/it]                                                     {'loss': 1.0242, 'learning_rate': 0.00041559781521002657, 'epoch': 0.36}
+ 57%|█████▋    | 250/440 [3:04:23<1:45:16, 33.24s/it] 57%|█████▋    | 251/440 [3:04:43<1:31:57, 29.20s/it]                                                     {'loss': 0.9091, 'learning_rate': 0.0004119657424769819, 'epoch': 0.36}
+ 57%|█████▋    | 251/440 [3:04:43<1:31:57, 29.20s/it] 57%|█████▋    | 252/440 [3:05:02<1:22:33, 26.35s/it]                                                     {'loss': 0.9997, 'learning_rate': 0.00040833845748092587, 'epoch': 0.36}
+ 57%|█████▋    | 252/440 [3:05:02<1:22:33, 26.35s/it] 57%|█████▊    | 253/440 [3:05:22<1:15:55, 24.36s/it]                                                     {'loss': 0.8627, 'learning_rate': 0.00040471615749150113, 'epoch': 0.36}
+ 57%|█████▊    | 253/440 [3:05:22<1:15:55, 24.36s/it] 58%|█████▊    | 254/440 [3:05:42<1:11:11, 22.96s/it]                                                     {'loss': 0.9161, 'learning_rate': 0.00040109903950724137, 'epoch': 0.36}
+ 58%|█████▊    | 254/440 [3:05:42<1:11:11, 22.96s/it] 58%|█████▊    | 255/440 [3:06:02<1:07:47, 21.98s/it]                                                     {'loss': 0.9603, 'learning_rate': 0.00039748730024485754, 'epoch': 0.36}
+ 58%|█████▊    | 255/440 [3:06:02<1:07:47, 21.98s/it] 58%|█████▊    | 256/440 [3:06:21<1:05:21, 21.31s/it]                                                     {'loss': 0.8963, 'learning_rate': 0.00039388113612853857, 'epoch': 0.37}
+ 58%|█████▊    | 256/440 [3:06:21<1:05:21, 21.31s/it] 58%|█████▊    | 257/440 [3:06:41<1:03:28, 20.81s/it]                                                     {'loss': 0.91, 'learning_rate': 0.0003902807432792698, 'epoch': 0.37}
+ 58%|█████▊    | 257/440 [3:06:41<1:03:28, 20.81s/it] 59%|█████▊    | 258/440 [3:07:01<1:02:32, 20.62s/it]                                                     {'loss': 0.9482, 'learning_rate': 0.00038668631750416653, 'epoch': 0.37}
+ 59%|█████▊    | 258/440 [3:07:01<1:02:32, 20.62s/it] 59%|█████▉    | 259/440 [3:07:21<1:01:16, 20.31s/it]                                                     {'loss': 0.8641, 'learning_rate': 0.00038309805428582563, 'epoch': 0.37}
+ 59%|█████▉    | 259/440 [3:07:21<1:01:16, 20.31s/it] 59%|█████▉    | 260/440 [3:07:40<1:00:20, 20.11s/it]                                                     {'loss': 0.8613, 'learning_rate': 0.0003795161487716928, 'epoch': 0.37}
+ 59%|█████▉    | 260/440 [3:07:40<1:00:20, 20.11s/it] 59%|█████▉    | 261/440 [3:08:00<59:40, 20.00s/it]                                                     {'loss': 1.0037, 'learning_rate': 0.0003759407957634512, 'epoch': 0.37}
+ 59%|█████▉    | 261/440 [3:08:00<59:40, 20.00s/it] 60%|█████▉    | 262/440 [3:08:20<58:58, 19.88s/it]                                                   {'loss': 0.9155, 'learning_rate': 0.00037237218970642623, 'epoch': 0.37}
+ 60%|█████▉    | 262/440 [3:08:20<58:58, 19.88s/it] 60%|█████▉    | 263/440 [3:08:39<58:27, 19.81s/it]                                                   {'loss': 0.6846, 'learning_rate': 0.00036881052467901054, 'epoch': 0.38}
+ 60%|█████▉    | 263/440 [3:09:35<58:27, 19.81s/it] 60%|██████    | 264/440 [3:09:55<1:47:03, 36.50s/it]                                                     {'loss': 0.9913, 'learning_rate': 0.00036525599438210957, 'epoch': 0.38}
+ 60%|██████    | 264/440 [3:09:55<1:47:03, 36.50s/it]
+                                             [A{'eval_loss': 0.8244023323059082, 'eval_runtime': 200.218, 'eval_samples_per_second': 1.214, 'eval_steps_per_second': 0.02, 'epoch': 0.38}
+ 60%|██████    | 264/440 [3:13:15<1:47:03, 36.50s/it]
+ 60%|██████    | 265/440 [3:18:44<8:57:56, 184.43s/it]                                                      {'loss': 0.7292, 'learning_rate': 0.00036170879212860726, 'epoch': 0.38}
+ 60%|██████    | 265/440 [3:18:44<8:57:56, 184.43s/it] 60%|██████    | 266/440 [3:19:05<6:32:21, 135.30s/it]                                                      {'loss': 0.911, 'learning_rate': 0.00035816911083285166, 'epoch': 0.38}
+ 60%|██████    | 266/440 [3:19:05<6:32:21, 135.30s/it] 61%|██████    | 267/440 [3:19:25<4:50:43, 100.83s/it]                                                      {'loss': 1.1069, 'learning_rate': 0.0003546371430001648, 'epoch': 0.38}
+ 61%|██████    | 267/440 [3:19:25<4:50:43, 100.83s/it] 61%|██████    | 268/440 [3:19:45<3:39:16, 76.49s/it]                                                      {'loss': 0.9846, 'learning_rate': 0.0003511130807163724, 'epoch': 0.38}
+ 61%|██████    | 268/440 [3:19:45<3:39:16, 76.49s/it] 61%|██████    | 269/440 [3:20:08<2:52:31, 60.53s/it]                                                     {'loss': 0.7663, 'learning_rate': 0.00034759711563735673, 'epoch': 0.38}
+ 61%|██████    | 269/440 [3:20:08<2:52:31, 60.53s/it] 61%|██████▏   | 270/440 [3:20:28<2:16:49, 48.29s/it]                                                     {'loss': 0.8618, 'learning_rate': 0.0003440894389786352, 'epoch': 0.39}
+ 61%|██████▏   | 270/440 [3:20:28<2:16:49, 48.29s/it] 62%|██████▏   | 271/440 [3:20:48<1:51:45, 39.68s/it]                                                     {'loss': 0.8491, 'learning_rate': 0.0003405902415049593, 'epoch': 0.39}
+ 62%|██████▏   | 271/440 [3:20:48<1:51:45, 39.68s/it] 62%|██████▏   | 272/440 [3:21:07<1:34:17, 33.68s/it]                                                     {'loss': 0.8179, 'learning_rate': 0.0003370997135199413, 'epoch': 0.39}
+ 62%|██████▏   | 272/440 [3:21:07<1:34:17, 33.68s/it] 62%|██████▏   | 273/440 [3:21:27<1:22:03, 29.48s/it]                                                     {'loss': 0.9079, 'learning_rate': 0.0003336180448557031, 'epoch': 0.39}
+ 62%|██████▏   | 273/440 [3:21:27<1:22:03, 29.48s/it] 62%|██████▏   | 274/440 [3:21:47<1:13:24, 26.54s/it]                                                     {'loss': 0.8154, 'learning_rate': 0.0003301454248625536, 'epoch': 0.39}
+ 62%|██████▏   | 274/440 [3:21:47<1:13:24, 26.54s/it] 62%|██████▎   | 275/440 [3:22:06<1:07:20, 24.49s/it]                                                     {'loss': 1.0856, 'learning_rate': 0.0003266820423986904, 'epoch': 0.39}
+ 62%|██████▎   | 275/440 [3:22:06<1:07:20, 24.49s/it] 63%|██████▎   | 276/440 [3:22:26<1:02:59, 23.04s/it]                                                     {'loss': 0.9161, 'learning_rate': 0.00032322808581992826, 'epoch': 0.39}
+ 63%|██████▎   | 276/440 [3:22:26<1:02:59, 23.04s/it] 63%|██████▎   | 277/440 [3:22:46<59:53, 22.05s/it]                                                     {'loss': 0.8456, 'learning_rate': 0.00031978374296945633, 'epoch': 0.4}
+ 63%|██████▎   | 277/440 [3:22:46<59:53, 22.05s/it] 63%|██████▎   | 278/440 [3:23:06<57:37, 21.34s/it]                                                   {'loss': 0.9946, 'learning_rate': 0.00031634920116762173, 'epoch': 0.4}
+ 63%|██████▎   | 278/440 [3:23:06<57:37, 21.34s/it] 63%|██████▎   | 279/440 [3:23:25<55:53, 20.83s/it]                                                   {'loss': 0.8359, 'learning_rate': 0.00031292464720174165, 'epoch': 0.4}
+ 63%|██████▎   | 279/440 [3:23:25<55:53, 20.83s/it] 64%|██████▎   | 280/440 [3:23:45<54:37, 20.48s/it]                                                   {'loss': 0.9356, 'learning_rate': 0.0003095102673159463, 'epoch': 0.4}
+ 64%|██████▎   | 280/440 [3:23:45<54:37, 20.48s/it] 64%|██████▍   | 281/440 [3:24:05<53:40, 20.25s/it]                                                   {'loss': 0.7546, 'learning_rate': 0.00030610624720104886, 'epoch': 0.4}
+ 64%|██████▍   | 281/440 [3:24:05<53:40, 20.25s/it] 64%|██████▍   | 282/440 [3:24:24<52:54, 20.09s/it]                                                   {'loss': 1.0232, 'learning_rate': 0.00030271277198444735, 'epoch': 0.4}
+ 64%|██████▍   | 282/440 [3:24:24<52:54, 20.09s/it] 64%|██████▍   | 283/440 [3:24:44<52:17, 19.99s/it]                                                   {'loss': 0.9245, 'learning_rate': 0.00029933002622005564, 'epoch': 0.4}
+ 64%|██████▍   | 283/440 [3:24:44<52:17, 19.99s/it][2024-01-10 11:28:13,778] [WARNING] [stage3.py:1991:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
+ 65%|██████▍   | 284/440 [3:25:04<51:50, 19.94s/it]                                                   {'loss': 0.773, 'learning_rate': 0.0002959581938782675, 'epoch': 0.41}
+ 65%|██████▍   | 284/440 [3:25:04<51:50, 19.94s/it] 65%|██████▍   | 285/440 [3:25:24<51:17, 19.85s/it]                                                   {'loss': 0.9169, 'learning_rate': 0.0002925974583359513, 'epoch': 0.41}
+ 65%|██████▍   | 285/440 [3:26:19<51:17, 19.85s/it] 65%|██████▌   | 286/440 [3:26:41<1:35:33, 37.23s/it]                                                     {'loss': 0.876, 'learning_rate': 0.00028924800236647597, 'epoch': 0.41}
+ 65%|██████▌   | 286/440 [3:26:41<1:35:33, 37.23s/it]
+                                             [A{'eval_loss': 0.8240365386009216, 'eval_runtime': 199.2285, 'eval_samples_per_second': 1.22, 'eval_steps_per_second': 0.02, 'epoch': 0.41}
+ 65%|██████▌   | 286/440 [3:30:01<1:35:33, 37.23s/it]
+ 65%|██████▌   | 287/440 [3:35:06<7:32:47, 177.57s/it]                                                      {'loss': 0.9166, 'learning_rate': 0.0002859100081297724, 'epoch': 0.41}
+ 65%|██████▌   | 287/440 [3:35:06<7:32:47, 177.57s/it] 65%|██████▌   | 288/440 [3:35:26<5:29:45, 130.17s/it]                                                      {'loss': 0.9455, 'learning_rate': 0.0002825836571624254, 'epoch': 0.41}
+ 65%|██████▌   | 288/440 [3:35:26<5:29:45, 130.17s/it] 66%|██████▌   | 289/440 [3:35:46<4:04:19, 97.09s/it]                                                      {'loss': 0.9412, 'learning_rate': 0.00027926913036780153, 'epoch': 0.41}
+ 66%|██████▌   | 289/440 [3:35:46<4:04:19, 97.09s/it] 66%|██████▌   | 290/440 [3:36:05<3:04:39, 73.86s/it]                                                     {'loss': 0.9024, 'learning_rate': 0.00027596660800621075, 'epoch': 0.41}
+ 66%|██████▌   | 290/440 [3:36:05<3:04:39, 73.86s/it] 66%|██████▌   | 291/440 [3:36:25<2:23:03, 57.61s/it]                                                     {'loss': 0.8419, 'learning_rate': 0.0002726762696851026, 'epoch': 0.42}
+ 66%|██████▌   | 291/440 [3:36:25<2:23:03, 57.61s/it] 66%|██████▋   | 292/440 [3:36:45<1:54:01, 46.23s/it]                                                     {'loss': 0.9913, 'learning_rate': 0.0002693982943492983, 'epoch': 0.42}
+ 66%|██████▋   | 292/440 [3:36:45<1:54:01, 46.23s/it] 67%|██████▋   | 293/440 [3:37:05<1:33:45, 38.27s/it]                                                     {'loss': 0.8465, 'learning_rate': 0.00026613286027125916, 'epoch': 0.42}
+ 67%|██████▋   | 293/440 [3:37:05<1:33:45, 38.27s/it] 67%|██████▋   | 294/440 [3:37:24<1:19:32, 32.69s/it]                                                     {'loss': 0.7995, 'learning_rate': 0.000262880145041391, 'epoch': 0.42}
+ 67%|██████▋   | 294/440 [3:37:24<1:19:32, 32.69s/it] 67%|██████▋   | 295/440 [3:37:44<1:09:36, 28.81s/it]                                                     {'loss': 1.0568, 'learning_rate': 0.0002596403255583859, 'epoch': 0.42}
+ 67%|██████▋   | 295/440 [3:37:44<1:09:36, 28.81s/it] 67%|██████▋   | 296/440 [3:38:04<1:02:37, 26.09s/it]                                                     {'loss': 1.0975, 'learning_rate': 0.00025641357801960184, 'epoch': 0.42}
+ 67%|██████▋   | 296/440 [3:38:04<1:02:37, 26.09s/it] 68%|██████▊   | 297/440 [3:38:23<57:36, 24.17s/it]                                                     {'loss': 0.8974, 'learning_rate': 0.00025320007791147954, 'epoch': 0.42}
+ 68%|██████▊   | 297/440 [3:38:23<57:36, 24.17s/it] 68%|██████▊   | 298/440 [3:38:43<54:02, 22.83s/it]                                                   {'loss': 0.949, 'learning_rate': 0.0002500000000000001, 'epoch': 0.43}
+ 68%|██████▊   | 298/440 [3:38:43<54:02, 22.83s/it] 68%|██████▊   | 299/440 [3:39:03<51:23, 21.87s/it]                                                   {'loss': 1.0191, 'learning_rate': 0.00024681351832117816, 'epoch': 0.43}
+ 68%|██████▊   | 299/440 [3:39:03<51:23, 21.87s/it] 68%|██████▊   | 300/440 [3:39:22<49:29, 21.21s/it]                                                   {'loss': 0.9791, 'learning_rate': 0.00024364080617159884, 'epoch': 0.43}
+ 68%|██████▊   | 300/440 [3:39:22<49:29, 21.21s/it] 68%|██████▊   | 301/440 [3:39:42<48:05, 20.76s/it]                                                   {'loss': 0.8375, 'learning_rate': 0.00024048203609899278, 'epoch': 0.43}
+ 68%|██████▊   | 301/440 [3:39:42<48:05, 20.76s/it] 69%|██████▊   | 302/440 [3:40:02<47:01, 20.45s/it]                                                   {'loss': 0.8816, 'learning_rate': 0.0002373373798928507, 'epoch': 0.43}
+ 69%|██████▊   | 302/440 [3:40:02<47:01, 20.45s/it] 69%|██████▉   | 303/440 [3:40:21<46:09, 20.22s/it]                                                   {'loss': 0.7965, 'learning_rate': 0.00023420700857508232, 'epoch': 0.43}
+ 69%|██████▉   | 303/440 [3:40:21<46:09, 20.22s/it] 69%|██████▉   | 304/440 [3:40:41<45:29, 20.07s/it]                                                   {'loss': 0.8288, 'learning_rate': 0.0002310910923907149, 'epoch': 0.43}
+ 69%|██████▉   | 304/440 [3:40:41<45:29, 20.07s/it] 69%|██████▉   | 305/440 [3:41:01<44:52, 19.94s/it]                                                   {'loss': 0.8632, 'learning_rate': 0.00022798980079863384, 'epoch': 0.44}
+ 69%|██████▉   | 305/440 [3:41:01<44:52, 19.94s/it] 70%|██████▉   | 306/440 [3:41:20<44:19, 19.85s/it]                                                   {'loss': 0.7526, 'learning_rate': 0.00022490330246236718, 'epoch': 0.44}
+ 70%|██████▉   | 306/440 [3:41:20<44:19, 19.85s/it] 70%|██████▉   | 307/440 [3:41:40<43:55, 19.81s/it]                                                   {'loss': 0.8429, 'learning_rate': 0.00022183176524091292, 'epoch': 0.44}
+ 70%|██████▉   | 307/440 [3:42:36<43:55, 19.81s/it] 70%|███████   | 308/440 [3:42:59<1:22:12, 37.37s/it]                                                     {'loss': 0.6916, 'learning_rate': 0.0002187753561796097, 'epoch': 0.44}
+ 70%|███████   | 308/440 [3:42:59<1:22:12, 37.37s/it]
+                                             [A{'eval_loss': 0.8230114579200745, 'eval_runtime': 201.2085, 'eval_samples_per_second': 1.208, 'eval_steps_per_second': 0.02, 'epoch': 0.44}
+ 70%|███████   | 308/440 [3:46:20<1:22:12, 37.37s/it]
+ 70%|███████   | 309/440 [3:51:29<6:31:16, 179.21s/it]                                                      {'loss': 1.0575, 'learning_rate': 0.00021573424150105232, 'epoch': 0.44}
+ 70%|███████   | 309/440 [3:51:29<6:31:16, 179.21s/it][2024-01-10 11:54:58,962] [WARNING] [stage3.py:1991:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
+ 70%|███████   | 310/440 [3:51:49<4:45:00, 131.54s/it]                                                      {'loss': 0.8462, 'learning_rate': 0.00021270858659605158, 'epoch': 0.44}
+ 70%|███████   | 310/440 [3:51:49<4:45:00, 131.54s/it] 71%|███████   | 311/440 [3:52:09<3:30:37, 97.97s/it]                                                      {'loss': 0.8527, 'learning_rate': 0.00020969855601463965, 'epoch': 0.44}
+ 71%|███████   | 311/440 [3:52:09<3:30:37, 97.97s/it] 71%|███████   | 312/440 [3:52:28<2:38:53, 74.48s/it]                                                     {'loss': 0.9483, 'learning_rate': 0.00020670431345712093, 'epoch': 0.45}
+ 71%|███████   | 312/440 [3:52:28<2:38:53, 74.48s/it] 71%|███████   | 313/440 [3:52:48<2:02:51, 58.04s/it]                                                     {'loss': 0.8901, 'learning_rate': 0.00020372602176516914, 'epoch': 0.45}
+ 71%|███████   | 313/440 [3:52:48<2:02:51, 58.04s/it] 71%|███████▏  | 314/440 [3:53:08<1:37:41, 46.52s/it]                                                     {'loss': 0.9007, 'learning_rate': 0.00020076384291297134, 'epoch': 0.45}
+ 71%|███████▏  | 314/440 [3:53:08<1:37:41, 46.52s/it] 72%|███████▏  | 315/440 [3:53:28<1:20:24, 38.60s/it]                                                     {'loss': 0.9048, 'learning_rate': 0.00019781793799841896, 'epoch': 0.45}
+ 72%|███████▏  | 315/440 [3:53:28<1:20:24, 38.60s/it] 72%|███████▏  | 316/440 [3:53:47<1:08:02, 32.92s/it]                                                     {'loss': 1.0502, 'learning_rate': 0.00019488846723434645, 'epoch': 0.45}
+ 72%|███████▏  | 316/440 [3:53:47<1:08:02, 32.92s/it] 72%|███████▏  | 317/440 [3:54:07<59:19, 28.94s/it]                                                     {'loss': 0.6863, 'learning_rate': 0.00019197558993981785, 'epoch': 0.45}
+ 72%|███████▏  | 317/440 [3:54:07<59:19, 28.94s/it] 72%|███████▏  | 318/440 [3:54:27<53:13, 26.18s/it]                                                   {'loss': 0.8216, 'learning_rate': 0.0001890794645314633, 'epoch': 0.45}
+ 72%|███████▏  | 318/440 [3:54:27<53:13, 26.18s/it] 72%|███████▎  | 319/440 [3:54:47<48:52, 24.24s/it]                                                   {'loss': 0.9749, 'learning_rate': 0.00018620024851486174, 'epoch': 0.46}
+ 72%|███████▎  | 319/440 [3:54:47<48:52, 24.24s/it] 73%|███████▎  | 320/440 [3:55:06<45:45, 22.88s/it]                                                   {'loss': 0.9881, 'learning_rate': 0.00018333809847597644, 'epoch': 0.46}
+ 73%|███████▎  | 320/440 [3:55:06<45:45, 22.88s/it] 73%|███████▎  | 321/440 [3:55:26<43:31, 21.94s/it]                                                   {'loss': 0.9319, 'learning_rate': 0.00018049317007263932, 'epoch': 0.46}
+ 73%|███████▎  | 321/440 [3:55:26<43:31, 21.94s/it] 73%|███████▎  | 322/440 [3:55:46<41:48, 21.26s/it]                                                   {'loss': 0.9501, 'learning_rate': 0.0001776656180260837, 'epoch': 0.46}
+ 73%|███████▎  | 322/440 [3:55:46<41:48, 21.26s/it] 73%|███████▎  | 323/440 [3:56:05<40:33, 20.80s/it]                                                   {'loss': 0.9913, 'learning_rate': 0.00017485559611253148, 'epoch': 0.46}
+ 73%|███████▎  | 323/440 [3:56:05<40:33, 20.80s/it] 74%|███████▎  | 324/440 [3:56:25<39:34, 20.47s/it]                                                   {'loss': 0.9806, 'learning_rate': 0.00017206325715483, 'epoch': 0.46}
+ 74%|███████▎  | 324/440 [3:56:25<39:34, 20.47s/it] 74%|███████▍  | 325/440 [3:56:45<38:46, 20.23s/it]                                                   {'loss': 0.7033, 'learning_rate': 0.00016928875301413916, 'epoch': 0.46}
+ 74%|███████▍  | 325/440 [3:56:45<38:46, 20.23s/it] 74%|███████▍  | 326/440 [3:57:05<38:10, 20.10s/it]                                                   {'loss': 1.0352, 'learning_rate': 0.0001665322345816746, 'epoch': 0.47}
+ 74%|███████▍  | 326/440 [3:57:05<38:10, 20.10s/it] 74%|███████▍  | 327/440 [3:57:24<37:36, 19.97s/it]                                                   {'loss': 0.7829, 'learning_rate': 0.0001637938517705001, 'epoch': 0.47}
+ 74%|███████▍  | 327/440 [3:57:24<37:36, 19.97s/it] 75%|███████▍  | 328/440 [3:57:44<37:07, 19.88s/it]                                                   {'loss': 0.9545, 'learning_rate': 0.00016107375350737436, 'epoch': 0.47}
+ 75%|███████▍  | 328/440 [3:57:44<37:07, 19.88s/it] 75%|███████▍  | 329/440 [3:58:04<36:43, 19.85s/it]                                                   {'loss': 0.8691, 'learning_rate': 0.00015837208772465327, 'epoch': 0.47}
+ 75%|███████▍  | 329/440 [3:58:57<36:43, 19.85s/it] 75%|███████▌  | 330/440 [3:59:21<1:07:44, 36.95s/it]                                                     {'loss': 0.736, 'learning_rate': 0.0001556890013522428, 'epoch': 0.47}
+ 75%|███████▌  | 330/440 [3:59:21<1:07:44, 36.95s/it]
+                                             [A{'eval_loss': 0.8224506378173828, 'eval_runtime': 199.123, 'eval_samples_per_second': 1.22, 'eval_steps_per_second': 0.02, 'epoch': 0.47}
+ 75%|███████▌  | 330/440 [4:02:40<1:07:44, 36.95s/it]
+ 75%|███████▌  | 331/440 [4:07:49<5:24:15, 178.49s/it]                                                      {'loss': 0.7744, 'learning_rate': 0.0001530246403096092, 'epoch': 0.47}
+ 75%|███████▌  | 331/440 [4:07:49<5:24:15, 178.49s/it] 75%|███████▌  | 332/440 [4:08:09<3:55:27, 130.81s/it]                                                      {'loss': 0.8226, 'learning_rate': 0.00015037914949784297, 'epoch': 0.47}
+ 75%|███████▌  | 332/440 [4:08:09<3:55:27, 130.81s/it] 76%|███████▌  | 333/440 [4:08:28<2:53:47, 97.45s/it]                                                      {'loss': 0.8138, 'learning_rate': 0.0001477526727917784, 'epoch': 0.48}
+ 76%|███████▌  | 333/440 [4:08:28<2:53:47, 97.45s/it] 76%|███████▌  | 334/440 [4:08:48<2:10:57, 74.13s/it]                                                     {'loss': 0.7898, 'learning_rate': 0.0001451453530321689, 'epoch': 0.48}
+ 76%|███████▌  | 334/440 [4:08:48<2:10:57, 74.13s/it] 76%|███████▌  | 335/440 [4:09:08<1:41:06, 57.77s/it]                                                     {'loss': 1.0082, 'learning_rate': 0.00014255733201791882, 'epoch': 0.48}
+ 76%|███████▌  | 335/440 [4:09:08<1:41:06, 57.77s/it] 76%|███████▋  | 336/440 [4:09:27<1:20:18, 46.33s/it]                                                     {'loss': 0.8453, 'learning_rate': 0.0001399887504983714, 'epoch': 0.48}
+ 76%|███████▋  | 336/440 [4:09:27<1:20:18, 46.33s/it] 77%|███████▋  | 337/440 [4:09:47<1:05:49, 38.34s/it]                                                     {'loss': 0.8834, 'learning_rate': 0.0001374397481656544, 'epoch': 0.48}
+ 77%|███████▋  | 337/440 [4:09:47<1:05:49, 38.34s/it] 77%|███████▋  | 338/440 [4:10:07<55:39, 32.74s/it]                                                     {'loss': 0.9056, 'learning_rate': 0.00013491046364708293, 'epoch': 0.48}
+ 77%|███████▋  | 338/440 [4:10:07<55:39, 32.74s/it] 77%|███████▋  | 339/440 [4:10:26<48:29, 28.80s/it]                                                   {'loss': 0.7143, 'learning_rate': 0.00013240103449762002, 'epoch': 0.48}
+ 77%|███████▋  | 339/440 [4:10:26<48:29, 28.80s/it] 77%|███████▋  | 340/440 [4:10:46<43:27, 26.07s/it]                                                   {'loss': 0.9332, 'learning_rate': 0.00012991159719239582, 'epoch': 0.49}
+ 77%|███████▋  | 340/440 [4:10:46<43:27, 26.07s/it] 78%|███████▊  | 341/440 [4:11:06<39:52, 24.17s/it]                                                   {'loss': 0.8681, 'learning_rate': 0.00012744228711928586, 'epoch': 0.49}
+ 78%|███████▊  | 341/440 [4:11:06<39:52, 24.17s/it] 78%|███████▊  | 342/440 [4:11:26<37:16, 22.83s/it]                                                   {'loss': 0.9271, 'learning_rate': 0.00012499323857154671, 'epoch': 0.49}
+ 78%|███████▊  | 342/440 [4:11:26<37:16, 22.83s/it] 78%|███████▊  | 343/440 [4:11:45<35:22, 21.88s/it]                                                   {'loss': 1.0233, 'learning_rate': 0.00012256458474051374, 'epoch': 0.49}
+ 78%|███████▊  | 343/440 [4:11:45<35:22, 21.88s/it] 78%|███████▊  | 344/440 [4:12:05<33:55, 21.21s/it]                                                   {'loss': 0.836, 'learning_rate': 0.00012015645770835764, 'epoch': 0.49}
+ 78%|███████▊  | 344/440 [4:12:05<33:55, 21.21s/it] 78%|███████▊  | 345/440 [4:12:25<32:53, 20.77s/it]                                                   {'loss': 0.9222, 'learning_rate': 0.00011776898844089928, 'epoch': 0.49}
+ 78%|███████▊  | 345/440 [4:12:25<32:53, 20.77s/it] 79%|███████▊  | 346/440 [4:12:44<31:59, 20.42s/it]                                                   {'loss': 0.8175, 'learning_rate': 0.00011540230678048969, 'epoch': 0.49}
+ 79%|███████▊  | 346/440 [4:12:44<31:59, 20.42s/it] 79%|███████▉  | 347/440 [4:13:04<31:17, 20.18s/it]                                                   {'loss': 0.9924, 'learning_rate': 0.00011305654143894672, 'epoch': 0.5}
+ 79%|███████▉  | 347/440 [4:13:04<31:17, 20.18s/it] 79%|███████▉  | 348/440 [4:13:24<30:43, 20.04s/it]                                                   {'loss': 1.0394, 'learning_rate': 0.00011073181999055538, 'epoch': 0.5}
+ 79%|███████▉  | 348/440 [4:13:24<30:43, 20.04s/it] 79%|███████▉  | 349/440 [4:13:43<30:13, 19.93s/it]                                                   {'loss': 0.8428, 'learning_rate': 0.00010842826886513075, 'epoch': 0.5}
+ 79%|███████▉  | 349/440 [4:13:43<30:13, 19.93s/it] 80%|███████▉  | 350/440 [4:14:03<29:48, 19.87s/it]                                                   {'loss': 0.8442, 'learning_rate': 0.00010614601334114099, 'epoch': 0.5}
+ 80%|███████▉  | 350/440 [4:14:03<29:48, 19.87s/it] 80%|███████▉  | 351/440 [4:14:23<29:22, 19.81s/it]                                                   {'loss': 0.9723, 'learning_rate': 0.0001038851775388941, 'epoch': 0.5}
+ 80%|███████▉  | 351/440 [4:15:30<29:22, 19.81s/it] 80%|████████  | 352/440 [4:15:54<1:00:38, 41.34s/it]                                                     {'loss': 0.876, 'learning_rate': 0.0001016458844137887, 'epoch': 0.5}
+ 80%|████████  | 352/440 [4:15:54<1:00:38, 41.34s/it]
+                                             [A{'eval_loss': 0.8218422532081604, 'eval_runtime': 197.8418, 'eval_samples_per_second': 1.228, 'eval_steps_per_second': 0.02, 'epoch': 0.5}
+ 80%|████████  | 352/440 [4:19:12<1:00:38, 41.34s/it]
+ 80%|████████  | 353/440 [4:24:26<4:24:37, 182.50s/it]                                                      {'loss': 0.8213, 'learning_rate': 9.942825574962594e-05, 'epoch': 0.5}
+ 80%|████████  | 353/440 [4:24:26<4:24:37, 182.50s/it] 80%|████████  | 354/440 [4:24:46<3:11:32, 133.63s/it]                                                      {'loss': 0.8058, 'learning_rate': 9.723241215198692e-05, 'epoch': 0.5}
+ 80%|████████  | 354/440 [4:24:46<3:11:32, 133.63s/it] 81%|████████  | 355/440 [4:25:05<2:20:53, 99.45s/it]                                                      {'loss': 0.934, 'learning_rate': 9.505847304167336e-05, 'epoch': 0.51}
+ 81%|████████  | 355/440 [4:25:05<2:20:53, 99.45s/it] 81%|████████  | 356/440 [4:25:25<1:45:42, 75.51s/it]                                                     {'loss': 0.7587, 'learning_rate': 9.290655664821296e-05, 'epoch': 0.51}
+ 81%|████████  | 356/440 [4:25:25<1:45:42, 75.51s/it] 81%|████████  | 357/440 [4:25:45<1:21:15, 58.75s/it]                                                     {'loss': 0.7173, 'learning_rate': 9.077678000342948e-05, 'epoch': 0.51}
+ 81%|████████  | 357/440 [4:25:45<1:21:15, 58.75s/it] 81%|████████▏ | 358/440 [4:26:04<1:04:16, 47.04s/it]                                                     {'loss': 0.8318, 'learning_rate': 8.866925893507805e-05, 'epoch': 0.51}
+ 81%|████████▏ | 358/440 [4:26:04<1:04:16, 47.04s/it] 82%|████████▏ | 359/440 [4:26:24<52:26, 38.84s/it]                                                     {'loss': 1.105, 'learning_rate': 8.658410806054567e-05, 'epoch': 0.51}
+ 82%|████████▏ | 359/440 [4:26:24<52:26, 38.84s/it] 82%|████████▏ | 360/440 [4:26:44<44:07, 33.09s/it]                                                   {'loss': 1.0375, 'learning_rate': 8.452144078061818e-05, 'epoch': 0.51}
+ 82%|████████▏ | 360/440 [4:26:44<44:07, 33.09s/it] 82%|████████▏ | 361/440 [4:27:03<38:17, 29.09s/it]                                                   {'loss': 1.0996, 'learning_rate': 8.248136927331241e-05, 'epoch': 0.51}
+ 82%|████████▏ | 361/440 [4:27:03<38:17, 29.09s/it] 82%|████████▏ | 362/440 [4:27:23<34:10, 26.28s/it]                                                   {'loss': 0.8673, 'learning_rate': 8.046400448777575e-05, 'epoch': 0.52}
+ 82%|████████▏ | 362/440 [4:27:23<34:10, 26.28s/it] 82%|████████▎ | 363/440 [4:27:43<31:11, 24.30s/it]                                                   {'loss': 0.758, 'learning_rate': 7.846945613825213e-05, 'epoch': 0.52}
+ 82%|████████▎ | 363/440 [4:27:43<31:11, 24.30s/it] 83%|████████▎ | 364/440 [4:28:03<29:02, 22.93s/it]                                                   {'loss': 0.893, 'learning_rate': 7.649783269811522e-05, 'epoch': 0.52}
+ 83%|████████▎ | 364/440 [4:28:03<29:02, 22.93s/it] 83%|████████▎ | 365/440 [4:28:22<27:26, 21.95s/it]                                                   {'loss': 0.7743, 'learning_rate': 7.454924139396891e-05, 'epoch': 0.52}
+ 83%|████████▎ | 365/440 [4:28:22<27:26, 21.95s/it] 83%|████████▎ | 366/440 [4:28:42<26:15, 21.28s/it]                                                   {'loss': 0.8798, 'learning_rate': 7.26237881998163e-05, 'epoch': 0.52}
+ 83%|████████▎ | 366/440 [4:28:42<26:15, 21.28s/it] 83%|████████▎ | 367/440 [4:29:02<25:19, 20.81s/it]                                                   {'loss': 0.9809, 'learning_rate': 7.072157783129585e-05, 'epoch': 0.52}
+ 83%|████████▎ | 367/440 [4:29:02<25:19, 20.81s/it] 84%|████████▎ | 368/440 [4:29:21<24:34, 20.48s/it]                                                   {'loss': 0.8524, 'learning_rate': 6.884271373998607e-05, 'epoch': 0.52}
+ 84%|████████▎ | 368/440 [4:29:21<24:34, 20.48s/it] 84%|████████▍ | 369/440 [4:29:41<23:56, 20.23s/it]                                                   {'loss': 0.9093, 'learning_rate': 6.698729810778065e-05, 'epoch': 0.53}
+ 84%|████████▍ | 369/440 [4:29:41<23:56, 20.23s/it] 84%|████████▍ | 370/440 [4:30:01<23:25, 20.08s/it]                                                   {'loss': 0.9587, 'learning_rate': 6.515543184133e-05, 'epoch': 0.53}
+ 84%|████████▍ | 370/440 [4:30:01<23:25, 20.08s/it] 84%|████████▍ | 371/440 [4:30:21<22:58, 19.97s/it]                                                   {'loss': 0.9301, 'learning_rate': 6.334721456655363e-05, 'epoch': 0.53}
+ 84%|████████▍ | 371/440 [4:30:21<22:58, 19.97s/it] 85%|████████▍ | 372/440 [4:30:40<22:32, 19.88s/it]                                                   {'loss': 0.8807, 'learning_rate': 6.156274462322292e-05, 'epoch': 0.53}
+ 85%|████████▍ | 372/440 [4:30:40<22:32, 19.88s/it] 85%|████████▍ | 373/440 [4:31:00<22:07, 19.81s/it]                                                   {'loss': 0.8816, 'learning_rate': 5.980211905961181e-05, 'epoch': 0.53}
+ 85%|████████▍ | 373/440 [4:31:55<22:07, 19.81s/it] 85%|████████▌ | 374/440 [4:32:18<41:09, 37.42s/it]                                                   {'loss': 0.9323, 'learning_rate': 5.8065433627219446e-05, 'epoch': 0.53}
+ 85%|████████▌ | 374/440 [4:32:18<41:09, 37.42s/it]
+                                             [A{'eval_loss': 0.8214592337608337, 'eval_runtime': 200.732, 'eval_samples_per_second': 1.211, 'eval_steps_per_second': 0.02, 'epoch': 0.53}
+ 85%|████████▌ | 374/440 [4:35:39<41:09, 37.42s/it]
+ 85%|████████▌ | 375/440 [4:40:47<3:13:46, 178.87s/it]                                                      {'loss': 0.9365, 'learning_rate': 5.635278277556266e-05, 'epoch': 0.53}
+ 85%|████████▌ | 375/440 [4:40:47<3:13:46, 178.87s/it] 85%|████████▌ | 376/440 [4:41:07<2:19:50, 131.10s/it]                                                      {'loss': 1.0571, 'learning_rate': 5.4664259647039136e-05, 'epoch': 0.54}
+ 85%|████████▌ | 376/440 [4:41:07<2:19:50, 131.10s/it] 86%|████████▌ | 377/440 [4:41:27<1:42:33, 97.67s/it]                                                      {'loss': 0.9334, 'learning_rate': 5.29999560718622e-05, 'epoch': 0.54}
+ 86%|████████▌ | 377/440 [4:41:27<1:42:33, 97.67s/it] 86%|████████▌ | 378/440 [4:41:46<1:16:45, 74.28s/it]                                                     {'loss': 1.0439, 'learning_rate': 5.135996256306619e-05, 'epoch': 0.54}
+ 86%|████████▌ | 378/440 [4:41:46<1:16:45, 74.28s/it] 86%|████████▌ | 379/440 [4:42:06<58:52, 57.91s/it]                                                     {'loss': 0.8576, 'learning_rate': 4.974436831158441e-05, 'epoch': 0.54}
+ 86%|████████▌ | 379/440 [4:42:06<58:52, 57.91s/it] 86%|████████▋ | 380/440 [4:42:26<46:27, 46.45s/it]                                                   {'loss': 1.0001, 'learning_rate': 4.815326118139812e-05, 'epoch': 0.54}
+ 86%|████████▋ | 380/440 [4:42:26<46:27, 46.45s/it] 87%|████████▋ | 381/440 [4:42:45<37:46, 38.41s/it]                                                   {'loss': 0.778, 'learning_rate': 4.6586727704758246e-05, 'epoch': 0.54}
+ 87%|████████▋ | 381/440 [4:42:45<37:46, 38.41s/it] 87%|████████▋ | 382/440 [4:43:05<31:42, 32.80s/it]                                                   {'loss': 0.8512, 'learning_rate': 4.504485307747913e-05, 'epoch': 0.54}
+ 87%|████████▋ | 382/440 [4:43:05<31:42, 32.80s/it] 87%|████████▋ | 383/440 [4:43:25<27:24, 28.86s/it]                                                   {'loss': 0.9047, 'learning_rate': 4.35277211543057e-05, 'epoch': 0.55}
+ 87%|████████▋ | 383/440 [4:43:25<27:24, 28.86s/it] 87%|████████▋ | 384/440 [4:43:44<24:22, 26.12s/it]                                                   {'loss': 0.7268, 'learning_rate': 4.203541444435211e-05, 'epoch': 0.55}
+ 87%|████████▋ | 384/440 [4:43:44<24:22, 26.12s/it] 88%|████████▊ | 385/440 [4:44:04<22:10, 24.18s/it]                                                   {'loss': 0.8129, 'learning_rate': 4.0568014106615204e-05, 'epoch': 0.55}
+ 88%|████████▊ | 385/440 [4:44:04<22:10, 24.18s/it] 88%|████████▊ | 386/440 [4:44:24<20:32, 22.83s/it]                                                   {'loss': 0.7155, 'learning_rate': 3.9125599945560864e-05, 'epoch': 0.55}
+ 88%|████████▊ | 386/440 [4:44:24<20:32, 22.83s/it] 88%|████████▊ | 387/440 [4:44:43<19:18, 21.85s/it]                                                   {'loss': 0.8577, 'learning_rate': 3.770825040678294e-05, 'epoch': 0.55}
+ 88%|████████▊ | 387/440 [4:44:43<19:18, 21.85s/it] 88%|████████▊ | 388/440 [4:45:03<18:22, 21.21s/it]                                                   {'loss': 0.8676, 'learning_rate': 3.631604257273774e-05, 'epoch': 0.55}
+ 88%|████████▊ | 388/440 [4:45:03<18:22, 21.21s/it] 88%|████████▊ | 389/440 [4:45:23<17:39, 20.77s/it]                                                   {'loss': 1.0802, 'learning_rate': 3.494905215855188e-05, 'epoch': 0.55}
+ 88%|████████▊ | 389/440 [4:45:23<17:39, 20.77s/it] 89%|████████▊ | 390/440 [4:45:43<17:02, 20.45s/it]                                                   {'loss': 0.843, 'learning_rate': 3.360735350790428e-05, 'epoch': 0.56}
+ 89%|████████▊ | 390/440 [4:45:43<17:02, 20.45s/it] 89%|████████▉ | 391/440 [4:46:07<17:37, 21.57s/it]                                                   {'loss': 0.9175, 'learning_rate': 3.229101958898273e-05, 'epoch': 0.56}
+ 89%|████████▉ | 391/440 [4:46:07<17:37, 21.57s/it] 89%|████████▉ | 392/440 [4:46:26<16:47, 21.00s/it]                                                   {'loss': 0.9202, 'learning_rate': 3.1000121990516275e-05, 'epoch': 0.56}
+ 89%|████████▉ | 392/440 [4:46:26<16:47, 21.00s/it] 89%|████████▉ | 393/440 [4:46:46<16:08, 20.61s/it]                                                   {'loss': 1.0038, 'learning_rate': 2.9734730917881203e-05, 'epoch': 0.56}
+ 89%|████████▉ | 393/440 [4:46:46<16:08, 20.61s/it] 90%|████████▉ | 394/440 [4:47:06<15:34, 20.33s/it]                                                   {'loss': 0.9157, 'learning_rate': 2.849491518928332e-05, 'epoch': 0.56}
+ 90%|████████▉ | 394/440 [4:47:06<15:34, 20.33s/it] 90%|████████▉ | 395/440 [4:47:25<15:05, 20.12s/it]                                                   {'loss': 0.7859, 'learning_rate': 2.7280742232014877e-05, 'epoch': 0.56}
+ 90%|████████▉ | 395/440 [4:48:19<15:05, 20.12s/it] 90%|█████████ | 396/440 [4:48:41<27:03, 36.89s/it]                                                   {'loss': 1.0167, 'learning_rate': 2.6092278078788e-05, 'epoch': 0.56}
+ 90%|█████████ | 396/440 [4:48:41<27:03, 36.89s/it]
+                                             [A{'eval_loss': 0.8211604356765747, 'eval_runtime': 198.5826, 'eval_samples_per_second': 1.224, 'eval_steps_per_second': 0.02, 'epoch': 0.56}
+ 90%|█████████ | 396/440 [4:52:00<27:03, 36.89s/it]
+ 90%|█████████ | 397/440 [4:57:04<2:06:28, 176.48s/it]                                                      {'loss': 0.9404, 'learning_rate': 2.492958736414319e-05, 'epoch': 0.57}
+ 90%|█████████ | 397/440 [4:57:04<2:06:28, 176.48s/it] 90%|█████████ | 398/440 [4:57:23<1:30:35, 129.42s/it]                                                      {'loss': 0.7911, 'learning_rate': 2.3792733320934347e-05, 'epoch': 0.57}
+ 90%|█████████ | 398/440 [4:57:23<1:30:35, 129.42s/it] 91%|█████████ | 399/440 [4:57:43<1:05:56, 96.49s/it]                                                      {'loss': 1.0571, 'learning_rate': 2.2681777776889733e-05, 'epoch': 0.57}
+ 91%|█████████ | 399/440 [4:57:43<1:05:56, 96.49s/it] 91%|█████████ | 400/440 [4:58:02<48:57, 73.43s/it]                                                     {'loss': 0.9561, 'learning_rate': 2.159678115124952e-05, 'epoch': 0.57}
+ 91%|█████████ | 400/440 [4:58:02<48:57, 73.43s/it] 91%|█████████ | 401/440 [4:58:22<37:13, 57.28s/it]                                                   {'loss': 0.8561, 'learning_rate': 2.053780245147996e-05, 'epoch': 0.57}
+ 91%|█████████ | 401/440 [4:58:22<37:13, 57.28s/it] 91%|█████████▏| 402/440 [4:58:42<29:07, 45.99s/it]                                                   {'loss': 0.8012, 'learning_rate': 1.9504899270064103e-05, 'epoch': 0.57}
+ 91%|█████████▏| 402/440 [4:58:42<29:07, 45.99s/it] 92%|█████████▏| 403/440 [4:59:01<23:30, 38.11s/it]                                                   {'loss': 0.8401, 'learning_rate': 1.849812778137e-05, 'epoch': 0.57}
+ 92%|█████████▏| 403/440 [4:59:01<23:30, 38.11s/it] 92%|█████████▏| 404/440 [4:59:21<19:32, 32.57s/it]                                                   {'loss': 0.8465, 'learning_rate': 1.7517542738595072e-05, 'epoch': 0.58}
+ 92%|█████████▏| 404/440 [4:59:21<19:32, 32.57s/it] 92%|█████████▏| 405/440 [4:59:41<16:44, 28.71s/it]                                                   {'loss': 0.8297, 'learning_rate': 1.6563197470788826e-05, 'epoch': 0.58}
+ 92%|█████████▏| 405/440 [4:59:41<16:44, 28.71s/it] 92%|█████████▏| 406/440 [5:00:00<14:43, 25.99s/it]                                                   {'loss': 0.7287, 'learning_rate': 1.5635143879952574e-05, 'epoch': 0.58}
+ 92%|█████████▏| 406/440 [5:00:00<14:43, 25.99s/it] 92%|█████████▎| 407/440 [5:00:20<13:14, 24.09s/it]                                                   {'loss': 0.8657, 'learning_rate': 1.4733432438216398e-05, 'epoch': 0.58}
+ 92%|█████████▎| 407/440 [5:00:20<13:14, 24.09s/it] 93%|█████████▎| 408/440 [5:00:40<12:08, 22.75s/it]                                                   {'loss': 0.8573, 'learning_rate': 1.3858112185094419e-05, 'epoch': 0.58}
+ 93%|█████████▎| 408/440 [5:00:40<12:08, 22.75s/it] 93%|█████████▎| 409/440 [5:00:59<11:16, 21.82s/it]                                                   {'loss': 0.8046, 'learning_rate': 1.3009230724818132e-05, 'epoch': 0.58}
+ 93%|█████████▎| 409/440 [5:00:59<11:16, 21.82s/it] 93%|█████████▎| 410/440 [5:01:19<10:35, 21.19s/it]                                                   {'loss': 0.7112, 'learning_rate': 1.2186834223746612e-05, 'epoch': 0.58}
+ 93%|█████████▎| 410/440 [5:01:19<10:35, 21.19s/it] 93%|█████████▎| 411/440 [5:01:39<10:01, 20.73s/it]                                                   {'loss': 0.7347, 'learning_rate': 1.1390967407856611e-05, 'epoch': 0.59}
+ 93%|█████████▎| 411/440 [5:01:39<10:01, 20.73s/it] 94%|█████████▎| 412/440 [5:01:58<09:31, 20.41s/it]                                                   {'loss': 0.7641, 'learning_rate': 1.0621673560309797e-05, 'epoch': 0.59}
+ 94%|█████████▎| 412/440 [5:01:58<09:31, 20.41s/it] 94%|█████████▍| 413/440 [5:02:18<09:05, 20.21s/it]                                                   {'loss': 0.743, 'learning_rate': 9.878994519098572e-06, 'epoch': 0.59}
+ 94%|█████████▍| 413/440 [5:02:18<09:05, 20.21s/it] 94%|█████████▍| 414/440 [5:02:38<08:41, 20.06s/it]                                                   {'loss': 0.7978, 'learning_rate': 9.162970674771176e-06, 'epoch': 0.59}
+ 94%|█████████▍| 414/440 [5:02:38<08:41, 20.06s/it] 94%|█████████▍| 415/440 [5:02:58<08:19, 19.96s/it]                                                   {'loss': 0.9132, 'learning_rate': 8.473640968234608e-06, 'epoch': 0.59}
+ 94%|█████████▍| 415/440 [5:02:58<08:19, 19.96s/it] 95%|█████████▍| 416/440 [5:03:17<07:57, 19.90s/it]                                                   {'loss': 0.8633, 'learning_rate': 7.81104288863721e-06, 'epoch': 0.59}
+ 95%|█████████▍| 416/440 [5:03:17<07:57, 19.90s/it] 95%|█████████▍| 417/440 [5:03:37<07:35, 19.82s/it]                                                   {'loss': 0.8279, 'learning_rate': 7.175212471329573e-06, 'epoch': 0.59}
+ 95%|█████████▍| 417/440 [5:04:49<07:35, 19.82s/it] 95%|█████████▌| 418/440 [5:05:08<15:07, 41.25s/it]                                                   {'loss': 0.6899, 'learning_rate': 6.566184295904775e-06, 'epoch': 0.6}
+ 95%|█████████▌| 418/440 [5:05:08<15:07, 41.25s/it]
+                                             [A{'eval_loss': 0.8210253119468689, 'eval_runtime': 196.9448, 'eval_samples_per_second': 1.234, 'eval_steps_per_second': 0.02, 'epoch': 0.6}
+ 95%|█████████▌| 418/440 [5:08:25<15:07, 41.25s/it]
+ 95%|█████████▌| 419/440 [5:13:34<1:03:10, 180.50s/it]                                                      {'loss': 0.7907, 'learning_rate': 5.983991484317996e-06, 'epoch': 0.6}
+ 95%|█████████▌| 419/440 [5:13:34<1:03:10, 180.50s/it] 95%|█████████▌| 420/440 [5:13:53<44:04, 132.23s/it]                                                      {'loss': 0.9189, 'learning_rate': 5.428665699084789e-06, 'epoch': 0.6}
+ 95%|█████████▌| 420/440 [5:13:53<44:04, 132.23s/it] 96%|█████████▌| 421/440 [5:14:13<31:10, 98.44s/it]                                                    {'loss': 0.7849, 'learning_rate': 4.900237141559571e-06, 'epoch': 0.6}
+ 96%|█████████▌| 421/440 [5:14:13<31:10, 98.44s/it] 96%|█████████▌| 422/440 [5:14:32<22:26, 74.80s/it]                                                   {'loss': 0.8475, 'learning_rate': 4.398734550292716e-06, 'epoch': 0.6}
+ 96%|█████████▌| 422/440 [5:14:32<22:26, 74.80s/it] 96%|█████████▌| 423/440 [5:14:52<16:30, 58.27s/it]                                                   {'loss': 0.8331, 'learning_rate': 3.924185199467856e-06, 'epoch': 0.6}
+ 96%|█████████▌| 423/440 [5:14:52<16:30, 58.27s/it] 96%|█████████▋| 424/440 [5:15:12<12:27, 46.71s/it]                                                   {'loss': 0.8978, 'learning_rate': 3.476614897418573e-06, 'epoch': 0.6}
+ 96%|█████████▋| 424/440 [5:15:12<12:27, 46.71s/it] 97%|█████████▋| 425/440 [5:15:32<09:38, 38.59s/it]                                                   {'loss': 0.8118, 'learning_rate': 3.0560479852246305e-06, 'epoch': 0.61}
+ 97%|█████████▋| 425/440 [5:15:32<09:38, 38.59s/it] 97%|█████████▋| 426/440 [5:15:51<07:40, 32.91s/it]                                                   {'loss': 0.6306, 'learning_rate': 2.6625073353884755e-06, 'epoch': 0.61}
+ 97%|█████████▋| 426/440 [5:15:51<07:40, 32.91s/it] 97%|█████████▋| 427/440 [5:16:11<06:16, 28.95s/it]                                                   {'loss': 0.8669, 'learning_rate': 2.2960143505909028e-06, 'epoch': 0.61}
+ 97%|█████████▋| 427/440 [5:16:11<06:16, 28.95s/it] 97%|█████████▋| 428/440 [5:16:31<05:14, 26.19s/it]                                                   {'loss': 0.8024, 'learning_rate': 1.9565889625275944e-06, 'epoch': 0.61}
+ 97%|█████████▋| 428/440 [5:16:31<05:14, 26.19s/it] 98%|█████████▊| 429/440 [5:16:53<04:36, 25.17s/it]                                                   {'loss': 0.8978, 'learning_rate': 1.6442496308246568e-06, 'epoch': 0.61}
+ 98%|█████████▊| 429/440 [5:16:53<04:36, 25.17s/it] 98%|█████████▊| 430/440 [5:17:13<03:55, 23.54s/it]                                                   {'loss': 0.9048, 'learning_rate': 1.3590133420350315e-06, 'epoch': 0.61}
+ 98%|█████████▊| 430/440 [5:17:13<03:55, 23.54s/it] 98%|█████████▊| 431/440 [5:17:33<03:21, 22.40s/it]                                                   {'loss': 1.0137, 'learning_rate': 1.1008956087144584e-06, 'epoch': 0.61}
+ 98%|█████████▊| 431/440 [5:17:33<03:21, 22.40s/it] 98%|█████████▊| 432/440 [5:17:53<02:52, 21.59s/it]                                                   {'loss': 0.9178, 'learning_rate': 8.699104685779835e-07, 'epoch': 0.62}
+ 98%|█████████▊| 432/440 [5:17:53<02:52, 21.59s/it] 98%|█████████▊| 433/440 [5:18:12<02:27, 21.02s/it]                                                   {'loss': 0.94, 'learning_rate': 6.660704837364029e-07, 'epoch': 0.62}
+ 98%|█████████▊| 433/440 [5:18:12<02:27, 21.02s/it] 99%|█████████▊| 434/440 [5:18:32<02:03, 20.64s/it]                                                   {'loss': 0.9015, 'learning_rate': 4.893867400131979e-07, 'epoch': 0.62}
+ 99%|█████████▊| 434/440 [5:18:32<02:03, 20.64s/it] 99%|█████████▉| 435/440 [5:18:52<01:41, 20.34s/it]                                                   {'loss': 0.6788, 'learning_rate': 3.398688463414623e-07, 'epoch': 0.62}
+ 99%|█████████▉| 435/440 [5:18:52<01:41, 20.34s/it] 99%|█████████▉| 436/440 [5:19:11<01:20, 20.15s/it]                                                   {'loss': 0.786, 'learning_rate': 2.1752493424148646e-07, 'epoch': 0.62}
+ 99%|█████████▉| 436/440 [5:19:11<01:20, 20.15s/it] 99%|█████████▉| 437/440 [5:19:31<00:59, 20.00s/it]                                                   {'loss': 0.719, 'learning_rate': 1.2236165737850024e-07, 'epoch': 0.62}
+ 99%|█████████▉| 437/440 [5:19:31<00:59, 20.00s/it]100%|█████████▉| 438/440 [5:19:51<00:39, 19.90s/it]                                                   {'loss': 0.7185, 'learning_rate': 5.438419120062932e-08, 'epoch': 0.62}
+100%|█████████▉| 438/440 [5:19:51<00:39, 19.90s/it]100%|█████████▉| 439/440 [5:20:10<00:19, 19.83s/it]                                                   {'loss': 0.9008, 'learning_rate': 1.3596232657675512e-08, 'epoch': 0.63}
+100%|█████████▉| 439/440 [5:21:05<00:19, 19.83s/it]100%|██████████| 440/440 [5:21:24<00:00, 36.02s/it]                                                   {'loss': 0.8629, 'learning_rate': 0.0, 'epoch': 0.63}
+100%|██████████| 440/440 [5:21:24<00:00, 36.02s/it]
+                                             [A{'eval_loss': 0.8209772109985352, 'eval_runtime': 200.6184, 'eval_samples_per_second': 1.211, 'eval_steps_per_second': 0.02, 'epoch': 0.63}
+100%|██████████| 440/440 [5:24:45<00:00, 36.02s/it]
+                                                   {'train_runtime': 19768.0571, 'train_samples_per_second': 0.178, 'train_steps_per_second': 0.022, 'train_loss': 0.9552912347696044, 'epoch': 0.63}
+100%|██████████| 440/440 [5:29:28<00:00, 36.02s/it]100%|██████████| 440/440 [5:29:28<00:00, 44.93s/it]
diff --git a/llama2_70b_lora/requirements.txt b/llama2_70b_lora/requirements.txt
new file mode 100644
index 000000000..74e6e9db4
--- /dev/null
+++ b/llama2_70b_lora/requirements.txt
@@ -0,0 +1,6 @@
+git+https://github.com/mlcommons/logging.git
+transformers==4.38.1
+accelerate==0.27.2
+peft==0.8.2
+datasets==2.17.1
+deepspeed==0.13.2
\ No newline at end of file
diff --git a/llama2_70b_lora/run_docker.sh b/llama2_70b_lora/run_docker.sh
new file mode 100755
index 000000000..bdf813291
--- /dev/null
+++ b/llama2_70b_lora/run_docker.sh
@@ -0,0 +1,2 @@
+docker pull nvcr.io/nvidia/pytorch:23.09-py3
+docker run -v path_to_my_folder:/root/workspace --workdir /root/workspace --gpus all -it --rm --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 nvcr.io/nvidia/pytorch:23.09-py3
diff --git a/llama2_70b_lora/run_llama_70B_scrolls_r16.sh b/llama2_70b_lora/run_llama_70B_scrolls_r16.sh
new file mode 100644
index 000000000..b61f63cae
--- /dev/null
+++ b/llama2_70b_lora/run_llama_70B_scrolls_r16.sh
@@ -0,0 +1,25 @@
+accelerate launch --config_file configs/default_config.yaml scripts/train.py \
+--dataset_path "./dataset" \
+--model_path "/software/users/ihubara/lora_clean/llama-v2-fused-qkv" \
+--max_seq_len 8192 \
+--bf16 True \
+--logging_steps 24 \
+--eval_steps 48 \
+--output_dir "./results/llama-70b_scrolls_gov_report_r16_$1" \
+--per_device_train_batch_size 1 \
+--gradient_accumulation_steps 1 \
+--lr_scheduler_type "cosine" \
+--learning_rate 4e-4 \
+--weight_decay 0.0001 \
+--warmup_ratio 0 \
+--max_grad_norm 0.3 \
+--use_gradient_checkpointing True \
+--target_eval_loss 0.925 \
+--use_peft_lora True \
+--lora_r 16 \
+--lora_alpha 32 \
+--lora_dropout 0.1 \
+--max_steps 1024 \
+--use_flash_attn \
+--seed "$1" \
+--lora_target_modules "qkv_proj,o_proj"
diff --git a/llama2_70b_lora/scripts/mlperf_logging_utils.py b/llama2_70b_lora/scripts/mlperf_logging_utils.py
new file mode 100644
index 000000000..ce26a59fe
--- /dev/null
+++ b/llama2_70b_lora/scripts/mlperf_logging_utils.py
@@ -0,0 +1,213 @@
+import os
+
+import torch
+import torch.distributed as dist
+from mlperf_logging import mllog
+from mlperf_logging.mllog import constants
+from transformers import (
+    TrainerCallback,
+    TrainerControl,
+    TrainerState,
+    TrainingArguments,
+)
+
+
+def is_dist_avail_and_initialized():
+    if not dist.is_available():
+        return False
+    if not dist.is_initialized():
+        return False
+    return True
+
+
+def get_rank():
+    if not is_dist_avail_and_initialized():
+        return 0
+    return dist.get_rank()
+
+
+def barrier():
+    if not is_dist_avail_and_initialized():
+        return
+    torch.distributed.barrier()
+
+
+class LoraLogger:
+    def __init__(self, target_eval_loss=None, filename=None, default_stack_offset=2):
+        self.mllogger = mllog.get_mllogger()
+        mllog.config(
+            default_stack_offset=default_stack_offset,
+            filename=(
+                filename or os.getenv("COMPLIANCE_FILE") or "mlperf_compliance.log"
+            ),
+            root_dir=os.path.normpath(os.path.dirname(os.path.realpath(__file__))),
+        )
+        self.target_eval_loss = target_eval_loss
+
+    @property
+    def rank(self):
+        return get_rank()
+
+    def event(self, key, value=None, metadata=None, sync=False, log_rank=None):
+        log_rank = self.rank == 0 if log_rank is None else self.rank == log_rank
+        if sync:
+            barrier()
+        if log_rank:
+            self.mllogger.event(key=key, value=value, metadata=metadata)
+
+    def start(self, key, value=None, metadata=None, sync=False, log_rank=None):
+        log_rank = self.rank == 0 if log_rank is None else self.rank == log_rank
+        if sync:
+            barrier()
+        if log_rank:
+            self.mllogger.start(key=key, value=value, metadata=metadata)
+
+    def end(self, key, value=None, metadata=None, sync=False, log_rank=None):
+        log_rank = self.rank == 0 if log_rank is None else self.rank == log_rank
+        if sync:
+            barrier()
+        if log_rank:
+            self.mllogger.end(key=key, value=value, metadata=metadata)
+
+
+class MLPerfCallback(TrainerCallback):
+    "A callback that prints a message at the beginning of training"
+
+    def __init__(self, logger, train_dataset_length, eval_dataset_length,lora_alpha):
+        super().__init__()
+        self.mllogger = logger
+        self.submission_info = {
+            "submission_benchmark": "llama2_70b_lora",
+            "submission_division": "closed",
+            "submission_org": "referece",
+            "submission_platform": "referece",
+            "submission_poc_name": "referece",
+            "submission_poc_email": "referece",
+            "submission_status": "onprem",
+            "train_dataset_length": train_dataset_length,
+            "eval_dataset_length": eval_dataset_length,
+            "lora_alpha": lora_alpha
+        }
+
+    def on_train_begin(self, args, state, control, **kwargs):
+        self.gbs=int(args.per_device_train_batch_size * args.gradient_accumulation_steps * os.getenv("WORLD_SIZE", 1))
+        self.mllogger.event(
+            key=constants.CACHE_CLEAR, value="True",
+        )
+        self.mllogger.event(
+            key=constants.SUBMISSION_BENCHMARK,
+            value=self.submission_info["submission_benchmark"],
+        )
+        self.mllogger.event(
+            key=constants.SUBMISSION_DIVISION,
+            value=self.submission_info["submission_division"],
+        )
+        self.mllogger.event(
+            key=constants.SUBMISSION_ORG, value=self.submission_info["submission_org"]
+        )
+        self.mllogger.event(
+            key=constants.SUBMISSION_PLATFORM,
+            value=self.submission_info["submission_platform"],
+        )
+        self.mllogger.event(
+            key=constants.SUBMISSION_POC_NAME,
+            value=self.submission_info["submission_poc_name"],
+        )
+        self.mllogger.event(
+            key=constants.SUBMISSION_POC_EMAIL,
+            value=self.submission_info["submission_poc_email"],
+        )
+        self.mllogger.event(
+            key=constants.SUBMISSION_STATUS,
+            value=self.submission_info["submission_status"],
+        )
+        self.mllogger.event(
+            key=constants.GLOBAL_BATCH_SIZE,
+            value=args.per_device_train_batch_size
+            * args.gradient_accumulation_steps
+            * os.getenv("WORLD_SIZE", 1),
+        )
+        self.mllogger.event(
+            key=constants.TRAIN_SAMPLES,
+            value=self.submission_info["train_dataset_length"],
+        )
+        self.mllogger.event(
+            key=constants.EVAL_SAMPLES,
+            value=self.submission_info["eval_dataset_length"],
+        )
+        self.mllogger.event(key=constants.SEED, value=args.seed)
+        self.mllogger.event(key=constants.OPT_LR_WARMUP_FACTOR, value=args.warmup_ratio)
+        self.mllogger.event(key=constants.OPT_LR_TRAINING_STEPS, value=args.max_steps)
+        self.mllogger.event(key=constants.OPT_ADAMW_WEIGHT_DECAY, value=args.weight_decay)
+        self.mllogger.event(key=constants.OPT_GRADIENT_CLIP_NORM, value=args.max_grad_norm)
+        self.mllogger.event(key=constants.OPT_BASE_LR, value=args.learning_rate)
+        self.mllogger.event(key=constants.LORA_ALPHA, value=self.submission_info["lora_alpha"])
+        self.mllogger.event(key='lora_rank', value=16)
+        self.mllogger.event(key=constants.GRADIENT_ACCUMULATION_STEPS, value=args.gradient_accumulation_steps)
+        self.mllogger.start(key=constants.INIT_START, value="")
+        # device warmup should be done here
+        self.mllogger.end(key=constants.INIT_STOP, value="")
+        self.mllogger.start(constants.RUN_START, value="")
+
+    def on_step_begin(
+        self,
+        args: TrainingArguments,
+        state: TrainerState,
+        control: TrainerControl,
+        **kwargs,
+    ):
+        """
+        Event called at the beginning of a training step. If using gradient accumulation, one training step might take
+        several inputs.
+        """
+        if (
+            state.global_step % (state.logging_steps) == 0
+            and state.global_step > 0
+            and not state.global_step % (state.eval_steps) == 0
+        ):
+            self.mllogger.event(
+                "train_loss",
+                value=state.log_history[-1]["loss"],
+                metadata={"samples_count": state.log_history[-1]["step"]*self.gbs},
+            )
+            control.should_log = True
+
+        if state.global_step % (state.eval_steps) == 0 and state.global_step > 0:
+            self.mllogger.end(
+                constants.BLOCK_STOP,
+                value="",
+                metadata={"samples_count": state.log_history[-1]["step"]*self.gbs},
+            )
+            self.mllogger.event(
+                constants.EVAL_ACCURACY,
+                value=state.log_history[-1]["eval_loss"],
+                metadata={"samples_count": state.log_history[-1]["step"]*self.gbs},
+            )
+            self.mllogger.start(
+                constants.BLOCK_START,
+                value="",
+                metadata={"samples_count": state.log_history[-1]["step"]},
+            )            
+            control.should_log = True
+        eval_loss_list = [
+            sl["eval_loss"] for sl in state.log_history if "eval_loss" in sl
+        ]
+        if eval_loss_list and eval_loss_list[-1] <= self.mllogger.target_eval_loss:
+            control.should_training_stop = True
+            self.mllogger.end(
+                constants.RUN_STOP,
+                value=eval_loss_list[-1],
+                metadata={
+                    "samples_count": state.log_history[-1]["step"]*self.gbs,
+                    "status": "success",
+                },
+            )
+        if state.global_step >= state.max_steps:
+            control.should_training_stop = True
+            self.mllogger.end(
+                constants.RUN_STOP,
+                value=eval_loss_list[-1],
+                metadata={"samples_count": state.log_history[-1]["step"]*self.gbs, "status": "fail"},
+            )
+
+        return control
diff --git a/llama2_70b_lora/scripts/train.py b/llama2_70b_lora/scripts/train.py
new file mode 100644
index 000000000..afe09912e
--- /dev/null
+++ b/llama2_70b_lora/scripts/train.py
@@ -0,0 +1,203 @@
+# coding=utf-8
+# Copyright 2023 The HuggingFace Inc. team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+from dataclasses import dataclass, field
+from typing import Optional
+
+from datasets import load_dataset
+from mlperf_logging_utils import LoraLogger, MLPerfCallback
+from transformers import HfArgumentParser, Trainer, TrainingArguments
+from utils import create_and_prepare_model, peft_module_casting_to_bf16
+
+
+@dataclass
+class ScriptArguments:
+    """
+    These arguments vary depending on how many GPUs you have, what their capacity and features are, and what size model you want to train.
+    """
+
+    local_rank: Optional[int] = field(
+        default=-1, metadata={"help": "Used for multi-gpu"}
+    )
+    per_device_train_batch_size: Optional[int] = field(default=1)
+    per_device_eval_batch_size: Optional[int] = field(default=1)
+    gradient_accumulation_steps: Optional[int] = field(default=1)
+    learning_rate: Optional[float] = field(default=2e-4)
+    max_grad_norm: Optional[float] = field(default=0.0)
+    weight_decay: Optional[float] = field(default=0.001)
+    lora_alpha: Optional[int] = field(default=32)
+    lora_dropout: Optional[float] = field(default=0.1, metadata={"help": "lora dropout is a fixed to 0.1 in closed submission"})
+    lora_r: Optional[int] = field(default=16, metadata={"help": "lora rank is a fixed to 16 in closed submission"})
+    lora_target_modules: Optional[str] = field(
+        default=None,
+        metadata={
+            "help": "comma separated list of target modules to apply LoRA layers to"
+        },
+    )
+    max_seq_length: Optional[int] = field(default=8192)
+    model_path: Optional[str] = field(
+        default="./llama-v2-fused-qkv",
+        metadata={"help": "Path to the model directory."},
+    )
+    dataset_path: Optional[str] = field(
+        default="./dataset.npy",
+        metadata={"help": "The path to the downloaded dataset."},
+    )
+    config_path: Optional[str] = field(
+        default="./configs/default_config.yaml",
+        metadata={"help": "path to model config"},
+    )
+    num_train_epochs: Optional[int] = field(
+        default=1,
+        metadata={"help": "The number of training epochs for the reward model."},
+    )
+    fp16: Optional[bool] = field(
+        default=False,
+        metadata={"help": "Enables fp16 training."},
+    )
+    bf16: Optional[bool] = field(
+        default=False,
+        metadata={"help": "Enables bf16 training."},
+    )
+    gradient_checkpointing: Optional[bool] = field(
+        default=True,
+        metadata={"help": "Enables gradient checkpointing."},
+    )
+    optim: Optional[str] = field(
+        default="adamw_torch",
+        metadata={"help": "The optimizer to use."},
+    )
+    lr_scheduler_type: str = field(
+        default="cosine",
+        metadata={
+            "help": "Learning rate schedule. Constant a bit better than cosine, and has advantage for analysis"
+        },
+    )
+    max_steps: int = field(
+        default=-1, metadata={"help": "How many optimizer update steps to take"}
+    )
+    warmup_ratio: float = field(
+        default=0.03, metadata={"help": "Fraction of steps to do a warmup for"}
+    )
+    save_steps: int = field(
+        default=10, metadata={"help": "Save checkpoint every X updates steps."}
+    )
+    eval_steps: int = field(default=22, metadata={"help": "Eval model every X steps."})
+    logging_steps: int = field(
+        default=10, metadata={"help": "Log every X updates steps."}
+    )
+    target_eval_loss: float = field(
+        default=0.92, metadata={"help": "target eval loss - NOT FINAL."}
+    )
+    output_dir: str = field(
+        default="results", metadata={"help": "Where to store the final model."}
+    )
+    use_flash_attn: Optional[bool] = field(
+        default=True,
+        metadata={"help": "Enables Flash attention for training."},
+    )
+    use_peft_lora: Optional[bool] = field(
+        default=True,
+        metadata={"help": "Enables PEFT LoRA for training."},
+    )
+    use_gradient_checkpointing: Optional[bool] = field(
+        default=True,
+        metadata={"help": "Enables Gradient Checkpointing."},
+    )
+    push_to_hub: Optional[bool] = field(
+        default=False,
+        metadata={"help": "If True, pushes the model to the HF Hub"},
+    )
+    num_workers: int = field(
+        default=4, metadata={"help": "Number of dataset workers to use."}
+    )
+    debug: Optional[bool] = field(
+        default=False,
+        metadata={
+            "help": "If True, tests things like proper saving/loading/logging of model"
+        },
+    )
+    dataset_config_name: Optional[str] = field(default="gov_report")
+    hub_model_id: Optional[str] = field(default=None)
+    seed: Optional[int] = field(default=42)
+
+
+def main(args):
+    loralogger = LoraLogger(target_eval_loss=args.target_eval_loss)
+    training_arguments = TrainingArguments(
+        output_dir=args.output_dir,
+        per_device_train_batch_size=args.per_device_train_batch_size,
+        per_device_eval_batch_size=args.per_device_eval_batch_size,
+        gradient_accumulation_steps=args.gradient_accumulation_steps,
+        optim=args.optim,
+        learning_rate=args.learning_rate,
+        fp16=args.fp16,
+        bf16=args.bf16,
+        max_grad_norm=args.max_grad_norm,
+        weight_decay=args.weight_decay,
+        warmup_ratio=args.warmup_ratio,
+        lr_scheduler_type=args.lr_scheduler_type,
+        num_train_epochs=args.num_train_epochs,
+        evaluation_strategy="steps",
+        save_strategy="no",
+        max_steps=args.max_steps,
+        eval_steps=args.eval_steps,
+        save_steps=args.save_steps,
+        logging_steps=args.logging_steps,
+        push_to_hub=args.push_to_hub,
+        gradient_checkpointing=args.use_gradient_checkpointing,
+        hub_model_id=args.hub_model_id,
+        report_to="tensorboard",
+        seed=args.seed,
+    )
+
+    model = create_and_prepare_model(args)
+    model.config.use_cache = False
+
+    # datasets
+    ## ToDo uncomment once drive goes public
+    # train_url = "https://drive.google.com/file/d/1-JgY1mEafcJ7qhggt6UR3OEKAciIPd5s/view?usp=sharing"
+    # eval_url =  "https://drive.google.com/file/d/1jrm6Lacrq49AYv0uB_Qy22xRmfPixQvs/view?usp=sharing"
+    # dataset = load_dataset("parquet", data_files={'train': train_url, 'validation': eval_url})
+    dataset = load_dataset(
+        "parquet",
+        data_files={
+            "train": f"{args.dataset_path}/train-00000-of-00001.parquet",
+            "validation": f"{args.dataset_path}/validation-00000-of-00001.parquet",
+        },
+    )
+    train_dataset, eval_dataset = dataset["train"], dataset["validation"]
+
+    trainer = Trainer(
+        model=model,
+        args=training_arguments,
+        train_dataset=train_dataset,
+        eval_dataset=eval_dataset,
+        callbacks=[MLPerfCallback(loralogger, len(train_dataset), len(eval_dataset),args.lora_alpha)],
+    )
+    trainer.accelerator.print(f"{trainer.model}")
+    if args.use_peft_lora:
+        trainer.model.print_trainable_parameters()
+
+    if args.use_peft_lora:
+        peft_module_casting_to_bf16(trainer.model, args)
+
+    trainer.train()
+
+
+if __name__ == "__main__":
+    parser = HfArgumentParser(ScriptArguments)
+    args = parser.parse_args_into_dataclasses()[0]
+    main(args)
diff --git a/llama2_70b_lora/scripts/utils.py b/llama2_70b_lora/scripts/utils.py
new file mode 100644
index 000000000..84821ffb4
--- /dev/null
+++ b/llama2_70b_lora/scripts/utils.py
@@ -0,0 +1,175 @@
+from functools import partial
+from itertools import chain
+
+import torch
+from datasets import load_dataset
+from peft import LoraConfig, get_peft_model
+from peft.tuners.lora import LoraLayer
+from transformers import AutoModelForCausalLM
+
+
+def group_texts(examples, block_size):
+    # Concatenate all texts.
+    concatenated_examples = {k: list(chain(*examples[k])) for k in examples.keys()}
+    total_length = len(concatenated_examples[list(examples.keys())[0]])
+    # We drop the small remainder, and if the total_length < block_size  we exclude this batch and return an empty dict.
+    # We could add padding if the model supported it instead of this drop, you can customize this part to your needs.
+    total_length = (total_length // block_size) * block_size
+    # Split by chunks of max_len.
+    result = {
+        k: [t[i : i + block_size] for i in range(0, total_length, block_size)]
+        for k, t in concatenated_examples.items()
+    }
+    if "labels" not in result:
+        result["labels"] = result["input_ids"].copy()
+    return result
+
+
+def create_datasets(tokenizer, args):
+    dataset = load_dataset(
+        args.dataset_name,
+        args.dataset_config_name,
+        use_auth_token=True,
+        num_proc=args.num_workers,
+    )
+    train_dataset = dataset["train"]
+    valid_dataset = dataset["validation"]
+    column_names = train_dataset.features
+
+    def tokenize_function(example, eval=False):
+        output_texts = []
+        mask_labels_sizes = []
+        for i in range(len(example["input"])):
+            if "gov_report" in args.dataset_config_name:
+                output_texts.append(
+                    f"### Summarize the following text:\n {example['input'][i]}\n ### Summary:\n {example['output'][i]}{tokenizer.eos_token}"
+                )
+                if eval:
+                    mask_labels_sizes.append(
+                        f"### Summarize the following text:\n {example['input'][i]}\n ### Summary:\n"
+                    )
+            else:
+                output_texts.append(
+                    f"### {example['input'][i]}\n ### The answer is:\n {example['output'][i]}{tokenizer.eos_token}"
+                )
+
+        input_ids = tokenizer(output_texts).input_ids
+
+        if eval:
+            labels_ids = tokenizer(mask_labels_sizes).input_ids
+            masked_labels = []
+            for out, lb in zip(input_ids, labels_ids):
+                ml = out.copy()
+                ml[: len(lb)] = [-100] * len(lb)
+                ml[-1] = -100
+                masked_labels.append(ml)
+            return {"input_ids": input_ids, "labels": masked_labels}
+        else:
+            return {"input_ids": input_ids}
+
+    train_dataset = train_dataset.map(
+        tokenize_function,
+        batched=True,
+        num_proc=8,
+        remove_columns=column_names,
+    )
+    valid_dataset = valid_dataset.map(
+        partial(tokenize_function, eval=True),
+        batched=True,
+        num_proc=2,
+        remove_columns=column_names,
+    )
+
+    def filter_function(example):
+        to_keep = []
+        for i in range(len(example["input_ids"])):
+            if len(example["input_ids"][i]) > args.max_seq_length:
+                to_keep.append(False)
+            else:
+                to_keep.append(True)
+        return to_keep
+
+    train_dataset = train_dataset.filter(
+        filter_function,
+        batched=True,
+        # with_indices=True,
+        num_proc=8,
+        # remove_columns=column_names,
+    )
+    valid_dataset = valid_dataset.filter(
+        filter_function,
+        batched=True,
+        # with_indices=True,
+        num_proc=2,
+        # remove_columns=column_names,
+    )
+    print(
+        f"Before packing, Size of the train set: {len(train_dataset)}. Size of the validation set: {len(valid_dataset)}"
+    )
+
+    packing_method = partial(group_texts, block_size=args.max_seq_length)
+    # Packing
+    train_dataset = train_dataset.map(
+        packing_method,
+        batched=True,
+        num_proc=8,
+    )
+    valid_dataset = valid_dataset.map(
+        packing_method,
+        batched=True,
+        num_proc=2,
+    )
+
+    print(
+        f"Size of the train set: {len(train_dataset)}. Size of the validation set: {len(valid_dataset)}"
+    )
+
+    return train_dataset, valid_dataset
+
+
+def create_and_prepare_model(args):
+    device_map = None
+
+    model = AutoModelForCausalLM.from_pretrained(
+        args.model_path,
+        device_map=device_map,
+        use_cache=not args.use_gradient_checkpointing,
+        trust_remote_code=True,
+        attn_implementation="flash_attention_2",
+        torch_dtype=torch.bfloat16,
+        max_position_embeddings=8192,
+    )
+
+    peft_config = None
+    if args.use_peft_lora:
+        peft_config = LoraConfig(
+            lora_alpha=args.lora_alpha,
+            lora_dropout=args.lora_dropout,
+            r=args.lora_r,
+            bias="none",
+            task_type="CAUSAL_LM",
+            target_modules=(
+                None
+                if args.lora_target_modules is None
+                else args.lora_target_modules.split(",")
+            ),
+        )
+        if args.use_gradient_checkpointing:
+            model.gradient_checkpointing_enable()
+        model = get_peft_model(model, peft_config)
+        model.print_trainable_parameters()
+
+    return model
+
+
+def peft_module_casting_to_bf16(model, args):
+    for name, module in model.named_modules():
+        if isinstance(module, LoraLayer):
+            if args.bf16:
+                module = module.to(torch.bfloat16)
+        if "norm" in name:
+            module = module.to(torch.float32)
+        if any(x in name for x in ["lm_head", "embed_tokens", "wte", "wpe"]):
+            if hasattr(module, "weight"):
+                if args.bf16 and module.weight.dtype == torch.float32:
+                    module = module.to(torch.bfloat16)