データセットの評価コード

環境構築

運営配布のGithubやNotionを参照してください。

#--- モジュール & Conda --------------------------------------------
module purge
module load cuda/12.6 miniconda/24.7.1-py312
module load cudnn/9.6.0  
module load nccl/2.24.3 
conda create -n llmbench python=3.12 -y
source "$(conda info --base)/etc/profile.d/conda.sh"
conda activate llmbench

srun --partition=P01 \
     --nodelist=osk-gpu51 \
     --nodes=1 \
     --ntasks=1 \
     --cpus-per-task=8 \
     --gpus-per-node=8 \
     --time=00:30:00 \
     --pty bash -l

conda install -c conda-forge --file requirements.txt
pip install \
  --index-url https://download.pytorch.org/whl/cu126 \
  torch==2.7.1+cu126 torchvision==0.22.1+cu126 torchaudio==2.7.1+cu126 \
  vllm>=0.4.2 \
  --extra-index-url https://pypi.org/simple\

準備作業

ファイルの置き場

$HOME/llm_bridge_prod/以下にeval_datasetフォルダを置いてください。

環境に合わせて下記点をご修正ください

mkdir -p slurm_logs
slurmのlogs出力先を指定している行があります。
各自の環境に合わせて修正してからお使いください。

問題回答用のslurmファイル

sbatch --nodelist=osk-gpu86 run_predict.sh

を実行してください。
モデル名・データセット名の指定は、conf/config.yaml

正解判定用のslurmファイル

sbatch --nodelist=osk-gpu86 run_judge.sh

モデル名の指摘は、conf/config.yaml

動作確認済みモデル（vLLM対応モデルのみ動作可能です）

問題回答: Qwen3 8B
正解判定: Qwen3 235B FP8

configの仕様

conf/config.yamlの設定できるパラメーターの説明です。

フィールド	型	説明
`dataset`	string	評価に使用するベンチマークのデータセットです。全問実施すると時間がかかるため最初は一部の問題のみを抽出して指定してください。
`provider`	string	評価に使用する推論環境です。vllmを指定した場合、base_urlが必要です。
`base_url`	string	vllmサーバーのurlです。同じサーバーで実行する場合は初期設定のままで大丈夫です。
`model`	string	評価対象のモデルです。vllmサーバーで使われているモデル名を指定してください。
`max_completion_tokens`	int > 0	最大出力トークン数です。プロンプトが2000トークン程度あるので、vllmサーバー起動時に指定したmax-model-lenより2500ほど引いた値を設定してください。
`reasoning`	boolean
`num_workers`	int > 1	同時にリクエストする数です。外部APIを使用時は30程度に、vllmサーバーを使用時は推論効率を高めるため、大きい値に設定してください。
`max_samples`	int > 0	指定した数の問題をデータセットの前から抽出して、推論します。
`judge`	string	LLM評価に使用するOpenAIモデルです。通常はo3-miniを使用ください。

Memo

評価結果がleaderboardフォルダに書き込まれています。results.jsonlとsummary.jsonが出力されているかご確認ください。

Name		Name	Last commit message	Last commit date
Latest commit History 40 Commits
conf		conf
hle_benchmark		hle_benchmark
judged		judged
leaderboard		leaderboard
notebooks		notebooks
outputs		outputs
predictions		predictions
.gitignore		.gitignore
README.md		README.md
judge.py		judge.py
judge_local.py		judge_local.py
predict.py		predict.py
requirements.txt		requirements.txt
run_judge.sh		run_judge.sh
run_predict.sh		run_predict.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

データセットの評価コード

環境構築

準備作業

ファイルの置き場

環境に合わせて下記点をご修正ください

問題回答用のslurmファイル

正解判定用のslurmファイル

動作確認済みモデル（vLLM対応モデルのみ動作可能です）

configの仕様

Memo

About

Uh oh!

Releases

Packages

Languages

iharashuuji/eval_dataset_copy

Folders and files

Latest commit

History

Repository files navigation

データセットの評価コード

環境構築

準備作業

ファイルの置き場

環境に合わせて下記点をご修正ください

問題回答用のslurmファイル

正解判定用のslurmファイル

動作確認済みモデル （vLLM対応モデルのみ動作可能です）

configの仕様

Memo

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

動作確認済みモデル（vLLM対応モデルのみ動作可能です）

Packages