Skip to content

训练突然被Kill-数据预处理部分 #100

@PlutoQyl

Description

@PlutoQyl

基于自定义的13w数据在6卡机器上训练,开启了数据enable_preprocess。
训练日志如下:

[2026-03-31 07:40:09] [Rank 0] [INFO] [flow_factory.rewards.registry]: Registered reward model: qwenvllmreward -> QwenVLLMRewardModel
[2026-03-31 07:40:13,657] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-03-31 07:40:18] [Rank 4] [INFO] [flow_factory.rewards.registry]: Registered reward model: qwenvllmreward -> QwenVLLMRewardModel
[2026-03-31 07:40:18] [Rank 0] [INFO] [flow_factory.rewards.registry]: Registered reward model: qwenvllmreward -> QwenVLLMRewardModel
[2026-03-31 07:40:18] [Rank 1] [INFO] [flow_factory.rewards.registry]: Registered reward model: qwenvllmreward -> QwenVLLMRewardModel
[2026-03-31 07:40:18] [Rank 5] [INFO] [flow_factory.rewards.registry]: Registered reward model: qwenvllmreward -> QwenVLLMRewardModel
[2026-03-31 07:40:18] [Rank 2] [INFO] [flow_factory.rewards.registry]: Registered reward model: qwenvllmreward -> QwenVLLMRewardModel
[2026-03-31 07:40:18] [Rank 3] [INFO] [flow_factory.rewards.registry]: Registered reward model: qwenvllmreward -> QwenVLLMRewardModel
[2026-03-31 07:40:21] [Rank 0] [INFO] [flow_factory.hparams.training_args]: World Size:6
[2026-03-31 07:40:21,906] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-03-31 07:40:22,131] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-03-31 07:40:22,151] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-03-31 07:40:22,201] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-03-31 07:40:22,308] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-03-31 07:40:22,327] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
[2026-03-31 07:40:22,597] [INFO] [comm.py:652:init_distributed] cdb=None
[2026-03-31 07:40:22,663] [INFO] [comm.py:652:init_distributed] cdb=None
[2026-03-31 07:40:22,669] [INFO] [comm.py:652:init_distributed] cdb=None
[2026-03-31 07:40:22,669] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
[2026-03-31 07:40:22,684] [INFO] [comm.py:652:init_distributed] cdb=None
[2026-03-31 07:40:22,762] [INFO] [comm.py:652:init_distributed] cdb=None
[2026-03-31 07:40:22,764] [INFO] [comm.py:652:init_distributed] cdb=None
[2026-03-31 07:40:24] [Rank 4] [INFO] [flow_factory.models.loader]: Loading model architecture: flux2-klein...
[2026-03-31 07:40:24] [Rank 1] [INFO] [flow_factory.models.loader]: Loading model architecture: flux2-klein...
[2026-03-31 07:40:24] [Rank 0] [INFO] [flow_factory.models.loader]: Loading model architecture: flux2-klein...

Loading pipeline components...:   0%|          | 0/5 [00:00<?, ?it/s][2026-03-31 07:40:24] [Rank 5] [INFO] [flow_factory.models.loader]: Loading model architecture: flux2-klein...
[2026-03-31 07:40:24] [Rank 2] [INFO] [flow_factory.models.loader]: Loading model architecture: flux2-klein...
[2026-03-31 07:40:24] [Rank 3] [INFO] [flow_factory.models.loader]: Loading model architecture: flux2-klein...

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]
Loading pipeline components...:  20%|██        | 1/5 [00:01<00:04,  1.18s/it]
Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]
Loading pipeline components...:  60%|██████    | 3/5 [00:01<00:00,  2.31it/s]
Loading checkpoint shards:  50%|█████     | 1/2 [00:07<00:07,  7.58s/it]
Loading checkpoint shards:  50%|█████     | 1/2 [00:08<00:08,  8.90s/it]�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������
[Preprocessing train dataset] Shard 0/5:   0%|          | 32/22931 [00:10<2:09:37,  2.94 examples/s]
[Preprocessing train dataset] Shard 0/5:   0%|          | 64/22931 [00:21<2:06:17,  3.02 examples/s]
[Preprocessing train dataset] Shard 0/5:   0%|          | 96/22931 [00:30<2:00:58,  3.15 examples/s]
[Preprocessing train dataset] Shard 0/5:   1%|          | 128/22931 [00:41<2:03:50,  3.07 examples/s]
[Preprocessing train dataset] Shard 0/5:   1%|          | 160/22931 [00:50<1:58:00,  3.22 examples/s]
[Preprocessing train dataset] Shard 0/5:   1%|          | 192/22931 [01:00<1:55:51,  3.27 examples/s]
[Preprocessing train dataset] Shard 0/5:   1%|          | 224/22931 [01:10<1:56:54,  3.24 examples/s]
[Preprocessing train dataset] Shard 0/5:   1%|          | 256/22931 [01:21<2:02:37,  3.08 examples/s]
[Preprocessing train dataset] Shard 0/5:   1%|▏         | 288/22931 [01:31<1:59:29,  3.16 examples/s]
[Preprocessing train dataset] Shard 0/5:   1%|▏         | 320/22931 [01:40<1:55:19,  3.27 examples/s]
[Preprocessing train dataset] Shard 0/5:   2%|▏         | 352/22931 [01:50<1:54:29,  3.29 examples/s]
[Preprocessing train dataset] Shard 0/5:   2%|▏         | 384/22931 [01:59<1:52:13,  3.35 examples/s]
[Preprocessing train dataset] Shard 0/5:   2%|▏         | 416/22931 [02:09<1:55:47,  3.24 examples/s]
[Preprocessing train dataset] Shard 0/5:   2%|▏         | 448/22931 [02:19<1:53:05,  3.31 examples/s]
Image 发现当处理到12000条左右时候,程序会突然被Kill(不知道是否是内存爆炸问题 )

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions