[WIP][Feature] DPO #434

amulil · 2024-02-25T16:50:36Z

@pppppM 佬，按你说的，初步想法是在 dataset 目录下实现 DPODataset，在 model 目录下实现 DPO，其他 hook 暂时和 sft 一致的，不用修改，但是有一个疑问，DPO 里有 model 和 ref_model 两个 model，deepspeed 相关的部分用修改嘛？

pppppM · 2024-03-05T13:39:13Z

xtuner/model/dpo.py

+        self.use_varlen_attn = use_varlen_attn
+
+        # TODO: Add ref model and ref model config
+        self.ref_llm = None


ref_llm，也支持 api model

amulil · 2024-03-06T07:25:34Z

更新了 dpo 的实现，使用 sft 的数据，可以跑通流程，但是存在两个问题：
NPROC_PER_NODE=8 xtuner train internlm2_chat_1_8b_qlora_dpo_ultra_e3 --deepspeed deepspeed_zero2

loss 为 nan

deepcopy 的方式不支持量化加载，只有 lora 和不量化加载，流程可以跑通

@xiaohangguo @pppppM 佬们，看下这两个问题是为啥呀

pppppM · 2024-03-07T07:20:58Z

ref_model 要不直接用 llm 的 config 重新 build ?

loss 为 nan 可能要 @xiaohangguo 帮忙看下公式细节

xiaohangguo · 2024-03-07T07:49:20Z

ref_model 要不直接用 llm 的 config 重新 build ?

loss 为 nan 可能要 @xiaohangguo 帮忙看下公式细节

好，今晚我切到这个分支复现一下，debug看看

amulil · 2024-03-07T10:46:30Z

ref_model 要不直接用 llm 的 config 重新 build ?

loss 为 nan 可能要 @xiaohangguo 帮忙看下公式细节

可以我试试改成用 llm 的 config 重新 build

xiaohangguo · 2024-03-07T14:59:08Z

写了个Mock 数据pytest来验证算法，目前测试结果，loss计算应该是没有问题。

import torch
import torch.nn.functional as F
from unittest import TestCase, main
# from utils import print


class MockModelOutput:
    def __init__(self, logits):
        self.logits = logits


class TestModel:
    def __init__(self, beta):
        self.beta = beta

    def llm(self, **kwargs):
        return MockModelOutput(logits=torch.randn(10, 5, 20))

    def ref_model(self, **kwargs):
        return MockModelOutput(logits=torch.randn(10, 5, 20))

    def compute_loss(self, data, data_samples=None):
        len_chosen = data["input_ids"].shape[0] // 2
        assert len_chosen != 0
        all_logits = self.llm(**data).logits
        all_ref_logits = self.ref_model(**data).logits

        print("all_logits:", all_logits)
        print("all_ref_logits:", all_ref_logits)

        labels = data["labels"]
        labels[labels == -100] = 0
        loss_mask = labels != 0

        print("labels:", labels)
        print("loss_mask:", loss_mask)

        per_token_logps = torch.gather(
            all_logits.log_softmax(-1), dim=2, index=labels.unsqueeze(2)).squeeze(2)
        per_ref_token_logps = torch.gather(
            all_ref_logits.log_softmax(-1), dim=2, index=labels.unsqueeze(2)).squeeze(2)

        print("per_token_logps:", per_token_logps)
        print("per_ref_token_logps:", per_ref_token_logps)

        epsilon = 0
        all_logps = (per_token_logps * loss_mask).sum(-1) / \
            (loss_mask.sum(-1) + epsilon)
        all_ref_logps = (per_ref_token_logps * loss_mask).sum(-1) / \
            (loss_mask.sum(-1) + epsilon)
        print("loss_mask.sum(-1)", loss_mask.sum(-1))
        print("all_logps:", all_logps)
        print("all_ref_logps:", all_ref_logps)

        policy_chosen_logps = all_logps[:len_chosen]
        policy_rejected_logps = all_logps[len_chosen:]
        reference_chosen_logps = all_ref_logps[:len_chosen]
        reference_rejected_logps = all_ref_logps[len_chosen:]

        print("policy_chosen_logps:", policy_chosen_logps)
        print("policy_rejected_logps:", policy_rejected_logps)
        print("reference_chosen_logps:", reference_chosen_logps)
        print("reference_rejected_logps:", reference_rejected_logps)

        pi_logratios = policy_chosen_logps - policy_rejected_logps
        ref_logratios = reference_chosen_logps - reference_rejected_logps

        print("pi_logratios:", pi_logratios)
        print("ref_logratios:", ref_logratios)

        logits = pi_logratios - ref_logratios
        loss = -F.logsigmoid(self.beta * logits)

        print("logits:", logits)
        print("loss:", loss)

        chosen_rewards = self.beta * \
            (policy_chosen_logps - reference_chosen_logps)
        rejected_rewards = self.beta * \
            (policy_rejected_logps - reference_rejected_logps)

        print("chosen_rewards:", chosen_rewards)
        print("rejected_rewards:", rejected_rewards)

        loss_dict = {
            'loss': loss,
            'chosen_rewards': chosen_rewards,
            'rejected_rewards': rejected_rewards
        }
        return loss_dict


class LossComputationTest(TestCase):
    def test_compute_loss(self):
        model = TestModel(beta=0.1)
        data = {
            "input_ids": torch.randint(0, 20, (10, 5)),
            "labels": torch.randint(-100, 20, (10, 5))
        }

        # 确保所有标签值非负
        data["labels"] = torch.where(
            data["labels"] < 0, torch.tensor(0), data["labels"])

        loss_dict = model.compute_loss(data)
        loss, chosen_rewards, rejected_rewards = loss_dict['loss'], loss_dict[
            'chosen_rewards'], loss_dict['rejected_rewards']
        # print("Loss values:", loss)
        # print("chosen_rewards values:", chosen_rewards)
        # print("rejected_rewards values:", rejected_rewards)
        self.assertTrue(torch.all(loss >= 0))
        # self.assertTrue(torch.all(chosen_rewards <= 0))
        # self.assertTrue(torch.all(rejected_rewards >= 0))


if __name__ == "__main__":
    main()

下一步需要适配Class DPOdataset ，一条batch中格式保持(prompt chosen reject)

xiaohangguo · 2024-03-09T15:31:36Z

把item_fn 搞了一下，但感觉还是有问题，单个conversation，应该是可以的，不知道能否和原来的encode_fn 结合，对于整个数据集处理好，正常走packer。
@LZHgrla ZH哥，麻烦帮忙看下看行不行

amulil · 2024-04-02T15:21:10Z

NPROC_PER_NODE=8 xtuner train internlm2_chat_1_8b_full_dpo_ultra_e3 --deepspeed deepspeed_zero2
目前 full dpo loss 正常了：

接下来按照 trl 文档里的说明添加 qlora dpo:
https://moon-ci-docs.huggingface.co/docs/trl/pr_1193/en/dpo_trainer#downsides-to-merging-qlora-before-dpo-approach-2

xiaohangguo · 2024-04-04T02:04:38Z

NPROC_PER_NODE=8 xtuner train internlm2_chat_1_8b_full_dpo_ultra_e3 --deepspeed deepspeed_zero2 目前 full dpo loss 正常了：接下来按照 trl 文档里的说明添加 qlora dpo: https://moon-ci-docs.huggingface.co/docs/trl/pr_1193/en/dpo_trainer#downsides-to-merging-qlora-before-dpo-approach-2

太强了！

KooSung · 2024-04-07T11:17:39Z

@amulil 请问现在有DPO训练的模型指标对比吗？我想参考这个实现RLHF-V
code: https://github.com/RLHF-V/RLHF-V, https://github.com/thunlp/Muffin

amulil · 2024-04-07T13:20:23Z

@amulil 请问现在有DPO训练的模型指标对比吗？我想参考这个实现RLHF-V code: https://github.com/RLHF-V/RLHF-V, https://github.com/thunlp/Muffin

@KooSung 目前暂时没有，后面会参考 https://github.com/huggingface/alignment-handbook/blob/main/recipes/zephyr-7b-beta/README.md 提到的 zephyr-7b-dpo-qlora 模型来看指标对比。

init dpo file

d1ca875

pppppM reviewed Mar 5, 2024

View reviewed changes

test dpo

67c9251

xiaohangguo and others added 7 commits March 7, 2024 23:51

[WIP] len_chosen不能为0

e0e4f54

xx

ec18b27

update how to get the length of chosen answer

cc2fbe3

[WIP] test dpo __getitem__

df99211

Merge branch 'main' into dpo

548cf79

xx

d121ca8

Merge branch 'dpo' of https://github.com/amulil/xtuner into dpo

5eb65dd

amulil added 4 commits March 12, 2024 12:31

update dpo

ca8881f

update dpo

90c8d20

fix loss nan problem

3fbdb60

add full dpo config

46e24be

amulil and others added 6 commits April 9, 2024 23:34

support dpo with qlora

aefd1de

add dpo loss type

8797fbc

fix conflicts

b2ef99b

update

231000f

update

26e878a

update

15e337f

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[WIP][Feature] DPO #434

[WIP][Feature] DPO #434

amulil commented Feb 25, 2024

pppppM Mar 5, 2024

amulil commented Mar 6, 2024 •

edited

Loading

pppppM commented Mar 7, 2024

xiaohangguo commented Mar 7, 2024

amulil commented Mar 7, 2024

xiaohangguo commented Mar 7, 2024

xiaohangguo commented Mar 9, 2024 •

edited

Loading

amulil commented Apr 2, 2024

xiaohangguo commented Apr 4, 2024

KooSung commented Apr 7, 2024

amulil commented Apr 7, 2024

[WIP][Feature] DPO #434

Are you sure you want to change the base?

[WIP][Feature] DPO #434

Conversation

amulil commented Feb 25, 2024

pppppM Mar 5, 2024

Choose a reason for hiding this comment

amulil commented Mar 6, 2024 • edited Loading

pppppM commented Mar 7, 2024

xiaohangguo commented Mar 7, 2024

amulil commented Mar 7, 2024

xiaohangguo commented Mar 7, 2024

xiaohangguo commented Mar 9, 2024 • edited Loading

amulil commented Apr 2, 2024

xiaohangguo commented Apr 4, 2024

KooSung commented Apr 7, 2024

amulil commented Apr 7, 2024

amulil commented Mar 6, 2024 •

edited

Loading

xiaohangguo commented Mar 9, 2024 •

edited

Loading