-
Notifications
You must be signed in to change notification settings - Fork 22
训练突然被Kill-数据预处理部分 #100
Copy link
Copy link
Open
Description
基于自定义的13w数据在6卡机器上训练,开启了数据enable_preprocess。
训练日志如下:
[2026-03-31 07:40:09] [Rank 0] [INFO] [flow_factory.rewards.registry]: Registered reward model: qwenvllmreward -> QwenVLLMRewardModel
[2026-03-31 07:40:13,657] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-03-31 07:40:18] [Rank 4] [INFO] [flow_factory.rewards.registry]: Registered reward model: qwenvllmreward -> QwenVLLMRewardModel
[2026-03-31 07:40:18] [Rank 0] [INFO] [flow_factory.rewards.registry]: Registered reward model: qwenvllmreward -> QwenVLLMRewardModel
[2026-03-31 07:40:18] [Rank 1] [INFO] [flow_factory.rewards.registry]: Registered reward model: qwenvllmreward -> QwenVLLMRewardModel
[2026-03-31 07:40:18] [Rank 5] [INFO] [flow_factory.rewards.registry]: Registered reward model: qwenvllmreward -> QwenVLLMRewardModel
[2026-03-31 07:40:18] [Rank 2] [INFO] [flow_factory.rewards.registry]: Registered reward model: qwenvllmreward -> QwenVLLMRewardModel
[2026-03-31 07:40:18] [Rank 3] [INFO] [flow_factory.rewards.registry]: Registered reward model: qwenvllmreward -> QwenVLLMRewardModel
[2026-03-31 07:40:21] [Rank 0] [INFO] [flow_factory.hparams.training_args]: World Size:6
[2026-03-31 07:40:21,906] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-03-31 07:40:22,131] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-03-31 07:40:22,151] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-03-31 07:40:22,201] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-03-31 07:40:22,308] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-03-31 07:40:22,327] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-03-31 07:40:22,597] [INFO] [comm.py:652:init_distributed] cdb=None
[2026-03-31 07:40:22,663] [INFO] [comm.py:652:init_distributed] cdb=None
[2026-03-31 07:40:22,669] [INFO] [comm.py:652:init_distributed] cdb=None
[2026-03-31 07:40:22,669] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
[2026-03-31 07:40:22,684] [INFO] [comm.py:652:init_distributed] cdb=None
[2026-03-31 07:40:22,762] [INFO] [comm.py:652:init_distributed] cdb=None
[2026-03-31 07:40:22,764] [INFO] [comm.py:652:init_distributed] cdb=None
[2026-03-31 07:40:24] [Rank 4] [INFO] [flow_factory.models.loader]: Loading model architecture: flux2-klein...
[2026-03-31 07:40:24] [Rank 1] [INFO] [flow_factory.models.loader]: Loading model architecture: flux2-klein...
[2026-03-31 07:40:24] [Rank 0] [INFO] [flow_factory.models.loader]: Loading model architecture: flux2-klein...
Loading pipeline components...: 0%| | 0/5 [00:00<?, ?it/s][2026-03-31 07:40:24] [Rank 5] [INFO] [flow_factory.models.loader]: Loading model architecture: flux2-klein...
[2026-03-31 07:40:24] [Rank 2] [INFO] [flow_factory.models.loader]: Loading model architecture: flux2-klein...
[2026-03-31 07:40:24] [Rank 3] [INFO] [flow_factory.models.loader]: Loading model architecture: flux2-klein...
Loading checkpoint shards: 0%| | 0/2 [00:00<?, ?it/s]
Loading pipeline components...: 20%|██ | 1/5 [00:01<00:04, 1.18s/it]
Loading checkpoint shards: 0%| | 0/2 [00:00<?, ?it/s]
Loading pipeline components...: 60%|██████ | 3/5 [00:01<00:00, 2.31it/s]
Loading checkpoint shards: 50%|█████ | 1/2 [00:07<00:07, 7.58s/it]
Loading checkpoint shards: 50%|█████ | 1/2 [00:08<00:08, 8.90s/it]�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������
[Preprocessing train dataset] Shard 0/5: 0%| | 32/22931 [00:10<2:09:37, 2.94 examples/s]
[Preprocessing train dataset] Shard 0/5: 0%| | 64/22931 [00:21<2:06:17, 3.02 examples/s]
[Preprocessing train dataset] Shard 0/5: 0%| | 96/22931 [00:30<2:00:58, 3.15 examples/s]
[Preprocessing train dataset] Shard 0/5: 1%| | 128/22931 [00:41<2:03:50, 3.07 examples/s]
[Preprocessing train dataset] Shard 0/5: 1%| | 160/22931 [00:50<1:58:00, 3.22 examples/s]
[Preprocessing train dataset] Shard 0/5: 1%| | 192/22931 [01:00<1:55:51, 3.27 examples/s]
[Preprocessing train dataset] Shard 0/5: 1%| | 224/22931 [01:10<1:56:54, 3.24 examples/s]
[Preprocessing train dataset] Shard 0/5: 1%| | 256/22931 [01:21<2:02:37, 3.08 examples/s]
[Preprocessing train dataset] Shard 0/5: 1%|▏ | 288/22931 [01:31<1:59:29, 3.16 examples/s]
[Preprocessing train dataset] Shard 0/5: 1%|▏ | 320/22931 [01:40<1:55:19, 3.27 examples/s]
[Preprocessing train dataset] Shard 0/5: 2%|▏ | 352/22931 [01:50<1:54:29, 3.29 examples/s]
[Preprocessing train dataset] Shard 0/5: 2%|▏ | 384/22931 [01:59<1:52:13, 3.35 examples/s]
[Preprocessing train dataset] Shard 0/5: 2%|▏ | 416/22931 [02:09<1:55:47, 3.24 examples/s]
[Preprocessing train dataset] Shard 0/5: 2%|▏ | 448/22931 [02:19<1:53:05, 3.31 examples/s]
发现当处理到12000条左右时候,程序会突然被Kill(不知道是否是内存爆炸问题
)Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels