Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

找不到对应模块 #13

Open
gogelan opened this issue Nov 10, 2024 · 18 comments
Open

找不到对应模块 #13

gogelan opened this issue Nov 10, 2024 · 18 comments

Comments

@gogelan
Copy link

gogelan commented Nov 10, 2024

您好,非常感谢您杰出的工作!
我在执行bash experiment/mimic3/online_distill.bash命令时报错:

File "/home/Users/LEADER-pytorch/models/bert_models.py", line 17, in <module>
    from models.graph_models import FuseEmbeddings
ModuleNotFoundError: No module named 'models.graph_models'

原因好像是models文件夹下没有graph_models模块,请问可以上传对应的代码吗?

@ricartojason
Copy link

请问一下你运行成功了吗?那个llama-7b能不能用llama2代替呀?

@gogelan
Copy link
Author

gogelan commented Nov 11, 2024

您好!

  1. 我在llama-7b上跑通了bash experiments/llm_cls.bash命令,也得到相关结果数据,但是在知识蒸馏训练小模型的过程中报错,相关错误如一楼所述。

  2. 我在运行该项目的过程尝试过llama2-7b-hf,训练到46%报错:

Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run.

建议先用llama-7b跑通试试,如果您尝试llama2的过程中也遇到相同情况烦请告知我解决办法,谢谢!

@ricartojason
Copy link

好的,感谢您的答复!另外请问一下你的依赖文件是完全参考requirements.txt的吗?我按照requiements.txt安装了全部依赖,且cuda、torch都是正常运行,但是我在运行大模型时
bash experiment/llm_cls.bash
遇到了如下错误:
RuntimeError: ProcessGroupNCCL is only supported with GPUs, no GPUs found!

@gogelan
Copy link
Author

gogelan commented Nov 12, 2024

这种错误应该是cuda之类的没有设置好,建议根据报错信息上网找一下解决方案。

@ricartojason
Copy link

非常感谢您的回复!不知道能否请求一下您的邮箱,想查看一下您的相关依赖库版本可以吗?

@12335d
Copy link

12335d commented Dec 2, 2024

你好,请问一下你的依赖文件是完全参考requirements.txt的吗?

@liuqidong07
Copy link
Owner

您好!

  1. 我在llama-7b上跑通了bash experiments/llm_cls.bash命令,也得到相关结果数据,但是在知识蒸馏训练小模型的过程中报错,相关错误如一楼所述。
  2. 我在运行该项目的过程尝试过llama2-7b-hf,训练到46%报错:
Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run.

建议先用llama-7b跑通试试,如果您尝试llama2的过程中也遇到相同情况烦请告知我解决办法,谢谢!

@gogelan 感谢您对我们工作的关注。我们之前训练也遇到过相似的问题,我查询了一些资料,认为原因在于LLaMA2是使用bf16训练的,如果使用fp16进行SFT就会报这个错。而我当时手里只有V100,没法儿使用bf16训练,也因此最后选用的LLaMA而非LLaMA2。如果您有其他问题也欢迎与我讨论!

祝好

@liuqidong07
Copy link
Owner

你好,请问一下你的依赖文件是完全参考requirements.txt的吗?

@12335d 您好,是按照requirements.txt进行配置的。python版本在论文中标错了,请注意:#1 (comment)

@12335d
Copy link

12335d commented Dec 2, 2024

谢谢指教!请问llm_cls.bash中modules_to_save="null"这一设置是什么意思啊?

@liuqidong07
Copy link
Owner

谢谢指教!请问llm_cls.bash中modules_to_save="null"这一设置是什么意思啊?

您好,这种问题建议直接去查transformers的文档会更快。https://huggingface.co/docs/transformers/v4.46.3/en/peft#add-additional-trainable-layers-to-a-peft-adapter

@12335d
Copy link

12335d commented Dec 2, 2024

@gogelan
Copy link
Author

gogelan commented Dec 2, 2024

您好!

  1. 我在llama-7b上跑通了bash experiments/llm_cls.bash命令,也得到相关结果数据,但是在知识蒸馏训练小模型的过程中报错,相关错误如一楼所述。
  2. 我在运行该项目的过程尝试过llama2-7b-hf,训练到46%报错:
Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run.

建议先用llama-7b跑通试试,如果您尝试llama2的过程中也遇到相同情况烦请告知我解决办法,谢谢!

@gogelan 感谢您对我们工作的关注。我们之前训练也遇到过相似的问题,我查询了一些资料,认为原因在于LLaMA2是使用bf16训练的,如果使用fp16进行SFT就会报这个错。而我当时手里只有V100,没法儿使用bf16训练,也因此最后选用的LLaMA而非LLaMA2。如果您有其他问题也欢迎与我讨论!

祝好

您好,感谢您的回复和解决办法。

File "/home/Users/LEADER-pytorch/models/bert_models.py", line 17, in <module>
    from models.graph_models import FuseEmbeddings
ModuleNotFoundError: No module named 'models.graph_models'

这个问题好像是models文件夹下没有graph_models.py脚本,请问是这个原因吗,能不能上传对应的脚本文件呢,还是说这个可以在其他项目中可以获取,可以的话希望能够提供一个链接,谢谢!

@12335d
Copy link

12335d commented Dec 2, 2024

您好!

  1. 我在llama-7b上跑通了bash experiments/llm_cls.bash命令,也得到相关结果数据,但是在知识蒸馏训练小模型的过程中报错,相关错误如一楼所述。
  2. 我在运行该项目的过程尝试过llama2-7b-hf,训练到46%报错:
Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run.

建议先用llama-7b跑通试试,如果您尝试llama2的过程中也遇到相同情况烦请告知我解决办法,谢谢!

@gogelan 感谢您对我们工作的关注。我们之前训练也遇到过相似的问题,我查询了一些资料,认为原因在于LLaMA2是使用bf16训练的,如果使用fp16进行SFT就会报这个错。而我当时手里只有V100,没法儿使用bf16训练,也因此最后选用的LLaMA而非LLaMA2。如果您有其他问题也欢迎与我讨论!
祝好

您好,感谢您的回复和解决办法。

File "/home/Users/LEADER-pytorch/models/bert_models.py", line 17, in <module>
    from models.graph_models import FuseEmbeddings
ModuleNotFoundError: No module named 'models.graph_models'

这个问题好像是models文件夹下没有graph_models.py脚本,请问是这个原因吗,能不能上传对应的脚本文件呢,还是说这个可以在其他项目中可以获取,可以的话希望能够提供一个链接,谢谢!

请问这是应要求的模型链接吗?[https://huggingface.co/huggyllama/llama-7b/tree/main

@12335d
Copy link

12335d commented Dec 3, 2024

您好,请问这是应要求的模型链接吗?[https://huggingface.co/huggyllama/llama-7b/tree/main]

@liuqidong07
Copy link
Owner

您好!

  1. 我在llama-7b上跑通了bash experiments/llm_cls.bash命令,也得到相关结果数据,但是在知识蒸馏训练小模型的过程中报错,相关错误如一楼所述。
  2. 我在运行该项目的过程尝试过llama2-7b-hf,训练到46%报错:
Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run.

建议先用llama-7b跑通试试,如果您尝试llama2的过程中也遇到相同情况烦请告知我解决办法,谢谢!

@gogelan 感谢您对我们工作的关注。我们之前训练也遇到过相似的问题,我查询了一些资料,认为原因在于LLaMA2是使用bf16训练的,如果使用fp16进行SFT就会报这个错。而我当时手里只有V100,没法儿使用bf16训练,也因此最后选用的LLaMA而非LLaMA2。如果您有其他问题也欢迎与我讨论!
祝好

您好,感谢您的回复和解决办法。

File "/home/Users/LEADER-pytorch/models/bert_models.py", line 17, in <module>
    from models.graph_models import FuseEmbeddings
ModuleNotFoundError: No module named 'models.graph_models'

这个问题好像是models文件夹下没有graph_models.py脚本,请问是这个原因吗,能不能上传对应的脚本文件呢,还是说这个可以在其他项目中可以获取,可以的话希望能够提供一个链接,谢谢!

您好,import的FuseEmbeddings在我们的模型中是没有用到的。简单的办法是您直接删去这个import以及里面引用FuseEmbeddings的Bert,就可以解决报错。

祝好

@liuqidong07
Copy link
Owner

您好,请问这是应要求的模型链接吗?[https://huggingface.co/huggyllama/llama-7b/tree/main]

您好,建议从官方获取LLaMA-7B模型。

@12335d
Copy link

12335d commented Dec 3, 2024

好的,谢谢您

@gogelan
Copy link
Author

gogelan commented Dec 4, 2024

您好!

  1. 我在llama-7b上跑通了bash experiments/llm_cls.bash命令,也得到相关结果数据,但是在知识蒸馏训练小模型的过程中报错,相关错误如一楼所述。
  2. 我在运行该项目的过程尝试过llama2-7b-hf,训练到46%报错:
Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run.

建议先用llama-7b跑通试试,如果您尝试llama2的过程中也遇到相同情况烦请告知我解决办法,谢谢!

@gogelan 感谢您对我们工作的关注。我们之前训练也遇到过相似的问题,我查询了一些资料,认为原因在于LLaMA2是使用bf16训练的,如果使用fp16进行SFT就会报这个错。而我当时手里只有V100,没法儿使用bf16训练,也因此最后选用的LLaMA而非LLaMA2。如果您有其他问题也欢迎与我讨论!
祝好

您好,感谢您的回复和解决办法。

File "/home/Users/LEADER-pytorch/models/bert_models.py", line 17, in <module>
    from models.graph_models import FuseEmbeddings
ModuleNotFoundError: No module named 'models.graph_models'

这个问题好像是models文件夹下没有graph_models.py脚本,请问是这个原因吗,能不能上传对应的脚本文件呢,还是说这个可以在其他项目中可以获取,可以的话希望能够提供一个链接,谢谢!

您好,import的FuseEmbeddings在我们的模型中是没有用到的。简单的办法是您直接删去这个import以及里面引用FuseEmbeddings的Bert,就可以解决报错。

祝好

好的,十分感谢您的回复!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

4 participants