Oneflow-Inc · strint · Apr 30, 2023 · Apr 30, 2023 · May 2, 2023 · May 2, 2023
diff --git a/onebench/libai/args_train.sh b/onebench/libai/args_train.sh
@@ -30,10 +30,10 @@ UNSET_DROPOUT=${23:-false}
 
 ONEFLOW_COMMIT=$(python3 -c 'import oneflow; print(oneflow.__git_commit__)')
 
-sed -i '/import time/a\import os' ./libai/engine/trainer.py
-sed -i '/for self.iter in range(start_iter, max_iter):/a\                    if self.iter == 99: \
-                        cmd = "nvidia-smi --query-gpu=timestamp,name,driver_version,utilization.gpu,utilization.memory,memory.total,memory.free,memory.used --format=csv" \
-                        os.system(cmd)' ./libai/engine/trainer.py
+#sed -i '/import time/a\import os' ./libai/engine/trainer.py
+#sed -i '/for self.iter in range(start_iter, max_iter):/a\                    if self.iter == 99: \
+#                        cmd = "nvidia-smi --query-gpu=timestamp,name,driver_version,utilization.gpu,utilization.memory,memory.total,memory.free,memory.used --format=csv" \
+#                        os.system(cmd)' ./libai/engine/trainer.py
 
 GPU_NAME="$(nvidia-smi -i 0 --query-gpu=gpu_name --format=csv,noheader)"
 GPU_NAME="${GPU_NAME// /_}"
@@ -74,7 +74,7 @@ LOG_FILENAME=${TRAN_MODEL}_${RUN_TYPE}_nl${NUM_LAYER}_nah${NUM_ATT_HEADS}_hs${HI
 
 if [[ $UNSET_DROPOUT = "true" ]]; then
     #sed -i 's/persistent_workers=True/#persistent_workers=True/g' ./libai/data/build.py
-    sed -i 's/shuffle=True/shuffle=False/g' ./libai/data/build.py
+    #sed -i 's/shuffle=True/shuffle=False/g' ./libai/data/build.py
     hidden_dropout_prob=0.0
     attention_probs_dropout_prob=0.0
     bias_dropout_fusion=false
@@ -83,7 +83,7 @@ fi
 
 if [[ $SAVE_MODEL = "false" ]]; then
     #sed -i 's/hooks.PeriodicCheckpointer/#&/' ./libai/engine/default.py
-    sed -i '/if self.cfg.train.evaluation.enabled:/i\        ret.pop()' ./libai/engine/default.py
+    #sed -i '/if self.cfg.train.evaluation.enabled:/i\        ret.pop()' ./libai/engine/default.py
     LOG_FOLDER=$LOG_FOLDER/${ONEFLOW_COMMIT}
 fi
 
@@ -96,35 +96,34 @@ echo LOG_FILENAME=$LOG_FILENAME
 python3 -m oneflow.distributed.launch \
 --nproc_per_node $GPUS_PER_NODE --nnodes $NNODES --node_rank $NODE_RANK --master_addr $MASTER_ADDR --master_port $MASTER_PORT \
 tools/train_net.py \
---resume \
---config-file $CONFIG \ 
-model.cfg.hidden_dropout_prob=$hidden_dropout_prob \ 
-model.cfg.attention_probs_dropout_prob=$attention_probs_dropout_prob \ 
-model.cfg.bias_dropout_fusion=$bias_dropout_fusion \ 
-model.cfg.hidden_layers=$NUM_LAYER \ 
-model.cfg.hidden_size=$HIDDEN_SIZE \ 
-model.cfg.num_attention_heads=$NUM_ATT_HEADS \ 
-model.cfg.intermediate_size=$INTERMEDIATE_SIZE \ 
-model.cfg.ffn_hidden_size=$INTERMEDIATE_SIZE \ 
+--config-file $CONFIG \
+model.cfg.hidden_dropout_prob=$hidden_dropout_prob \
+model.cfg.attention_probs_dropout_prob=$attention_probs_dropout_prob \
+model.cfg.bias_dropout_fusion=$bias_dropout_fusion \
+model.cfg.hidden_layers=$NUM_LAYER \
+model.cfg.hidden_size=$HIDDEN_SIZE \
+model.cfg.num_attention_heads=$NUM_ATT_HEADS \
+model.cfg.intermediate_size=$INTERMEDIATE_SIZE \
+model.cfg.ffn_hidden_size=$INTERMEDIATE_SIZE \
 model.cfg.head_size=$HEAD_SIZE \
-graph.enabled=$GRAPH_ENABLED \ 
-train.dist.pipeline_num_layers=$NUM_LAYER \ 
-train.train_micro_batch_size=$MICRO_BATCH_SIZE \ 
-train.global_batch_size=$GLOBAL_BATCH_SIZE \ 
-train.dist.tensor_parallel_size=$MP \ 
-train.dist.pipeline_parallel_size=$PP \ 
-train.amp.enabled=$USE_FP16 \ 
-train.activation_checkpoint.enabled=$ACTIVATION_CHECKPOINT \ 
-train.num_accumulation_steps=$ACC \ 
-train.evaluation.enabled=$EVALUATION_ENABLED \ 
-train.evaluation.eval_iter=$EVAL_ITER \ 
-train.train_iter=$TRAIN_ITERS \ 
-train.train_epoch=$TRAIN_EPOCH \ 
-train.log_period=$LOG_PERIOD \ 
-train.zero_optimization.enabled=$ZERO_ENABLE \ 
-train.zero_optimization.stage=$ZERO_STAGE \ 
-train.load_weight=$LOAD_WEIGHT \   
-train.checkpoint.period=$save_checkpoint_period \ 
+graph.enabled=$GRAPH_ENABLED \
+train.dist.pipeline_num_layers=$NUM_LAYER \
+train.train_micro_batch_size=$MICRO_BATCH_SIZE \
+train.global_batch_size=$GLOBAL_BATCH_SIZE \
+train.dist.tensor_parallel_size=$MP \
+train.dist.pipeline_parallel_size=$PP \
+train.amp.enabled=$USE_FP16 \
+train.activation_checkpoint.enabled=$ACTIVATION_CHECKPOINT \
+train.num_accumulation_steps=$ACC \
+train.evaluation.enabled=$EVALUATION_ENABLED \
+train.evaluation.eval_iter=$EVAL_ITER \
+train.train_iter=$TRAIN_ITERS \
+train.train_epoch=$TRAIN_EPOCH \
+train.log_period=$LOG_PERIOD \
+train.zero_optimization.enabled=$ZERO_ENABLE \
+train.zero_optimization.stage=$ZERO_STAGE \
+train.load_weight=$LOAD_WEIGHT \
+train.checkpoint.period=$save_checkpoint_period \
 train.output_dir=$LOG_FILENAME 2>&1 | tee ${LOG_FILENAME}/output.log