找不到对应模块 #13

gogelan · 2024-11-10T11:22:02Z

您好，非常感谢您杰出的工作！
我在执行bash experiment/mimic3/online_distill.bash命令时报错：

File "/home/Users/LEADER-pytorch/models/bert_models.py", line 17, in <module>
    from models.graph_models import FuseEmbeddings
ModuleNotFoundError: No module named 'models.graph_models'

原因好像是models文件夹下没有graph_models模块，请问可以上传对应的代码吗？

The text was updated successfully, but these errors were encountered:

ricartojason · 2024-11-11T15:25:50Z

请问一下你运行成功了吗？那个llama-7b能不能用llama2代替呀？

gogelan · 2024-11-11T16:05:20Z

您好！

我在llama-7b上跑通了bash experiments/llm_cls.bash命令，也得到相关结果数据，但是在知识蒸馏训练小模型的过程中报错，相关错误如一楼所述。
我在运行该项目的过程尝试过llama2-7b-hf，训练到46%报错：

Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run.

建议先用llama-7b跑通试试，如果您尝试llama2的过程中也遇到相同情况烦请告知我解决办法，谢谢！

ricartojason · 2024-11-12T10:28:18Z

好的，感谢您的答复！另外请问一下你的依赖文件是完全参考requirements.txt的吗？我按照requiements.txt安装了全部依赖，且cuda、torch都是正常运行，但是我在运行大模型时
bash experiment/llm_cls.bash
遇到了如下错误：
RuntimeError: ProcessGroupNCCL is only supported with GPUs, no GPUs found!

gogelan · 2024-11-12T11:09:33Z

这种错误应该是cuda之类的没有设置好，建议根据报错信息上网找一下解决方案。

ricartojason · 2024-11-13T05:51:44Z

非常感谢您的回复！不知道能否请求一下您的邮箱，想查看一下您的相关依赖库版本可以吗？

12335d · 2024-12-02T11:27:56Z

你好，请问一下你的依赖文件是完全参考requirements.txt的吗？

liuqidong07 · 2024-12-02T14:03:29Z

您好！

我在llama-7b上跑通了bash experiments/llm_cls.bash命令，也得到相关结果数据，但是在知识蒸馏训练小模型的过程中报错，相关错误如一楼所述。

我在运行该项目的过程尝试过llama2-7b-hf，训练到46%报错：
Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run.
建议先用llama-7b跑通试试，如果您尝试llama2的过程中也遇到相同情况烦请告知我解决办法，谢谢！

@gogelan 感谢您对我们工作的关注。我们之前训练也遇到过相似的问题，我查询了一些资料，认为原因在于LLaMA2是使用bf16训练的，如果使用fp16进行SFT就会报这个错。而我当时手里只有V100，没法儿使用bf16训练，也因此最后选用的LLaMA而非LLaMA2。如果您有其他问题也欢迎与我讨论！

祝好

liuqidong07 · 2024-12-02T14:04:31Z

你好，请问一下你的依赖文件是完全参考requirements.txt的吗？

@12335d 您好，是按照requirements.txt进行配置的。python版本在论文中标错了，请注意：#1 (comment)

12335d · 2024-12-02T14:14:56Z

谢谢指教！请问llm_cls.bash中modules_to_save="null"这一设置是什么意思啊？

liuqidong07 · 2024-12-02T14:19:25Z

谢谢指教！请问llm_cls.bash中modules_to_save="null"这一设置是什么意思啊？

您好，这种问题建议直接去查transformers的文档会更快。https://huggingface.co/docs/transformers/v4.46.3/en/peft#add-additional-trainable-layers-to-a-peft-adapter

12335d · 2024-12-02T14:22:56Z

嗯嗯好的，请问这是应要求的模型链接吗？https://huggingface.co/huggyllama/llama-7b/tree/main。此外我将四个GPU设备换成两个GPU设备不影响跑通模型吧？

gogelan · 2024-12-02T14:36:54Z

您好！

我在llama-7b上跑通了bash experiments/llm_cls.bash命令，也得到相关结果数据，但是在知识蒸馏训练小模型的过程中报错，相关错误如一楼所述。

我在运行该项目的过程尝试过llama2-7b-hf，训练到46%报错：
Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run.
建议先用llama-7b跑通试试，如果您尝试llama2的过程中也遇到相同情况烦请告知我解决办法，谢谢！
@gogelan 感谢您对我们工作的关注。我们之前训练也遇到过相似的问题，我查询了一些资料，认为原因在于LLaMA2是使用bf16训练的，如果使用fp16进行SFT就会报这个错。而我当时手里只有V100，没法儿使用bf16训练，也因此最后选用的LLaMA而非LLaMA2。如果您有其他问题也欢迎与我讨论！

祝好

您好，感谢您的回复和解决办法。

File "/home/Users/LEADER-pytorch/models/bert_models.py", line 17, in <module>
    from models.graph_models import FuseEmbeddings
ModuleNotFoundError: No module named 'models.graph_models'

这个问题好像是models文件夹下没有graph_models.py脚本，请问是这个原因吗，能不能上传对应的脚本文件呢，还是说这个可以在其他项目中可以获取，可以的话希望能够提供一个链接，谢谢！

12335d · 2024-12-02T15:16:03Z

您好！

我在llama-7b上跑通了bash experiments/llm_cls.bash命令，也得到相关结果数据，但是在知识蒸馏训练小模型的过程中报错，相关错误如一楼所述。

我在运行该项目的过程尝试过llama2-7b-hf，训练到46%报错：
Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run.
建议先用llama-7b跑通试试，如果您尝试llama2的过程中也遇到相同情况烦请告知我解决办法，谢谢！
@gogelan 感谢您对我们工作的关注。我们之前训练也遇到过相似的问题，我查询了一些资料，认为原因在于LLaMA2是使用bf16训练的，如果使用fp16进行SFT就会报这个错。而我当时手里只有V100，没法儿使用bf16训练，也因此最后选用的LLaMA而非LLaMA2。如果您有其他问题也欢迎与我讨论！
祝好
您好，感谢您的回复和解决办法。
File "/home/Users/LEADER-pytorch/models/bert_models.py", line 17, in <module>
    from models.graph_models import FuseEmbeddings
ModuleNotFoundError: No module named 'models.graph_models'
这个问题好像是models文件夹下没有graph_models.py脚本，请问是这个原因吗，能不能上传对应的脚本文件呢，还是说这个可以在其他项目中可以获取，可以的话希望能够提供一个链接，谢谢！

请问这是应要求的模型链接吗？[https://huggingface.co/huggyllama/llama-7b/tree/main

12335d · 2024-12-03T05:10:32Z

您好，请问这是应要求的模型链接吗？[https://huggingface.co/huggyllama/llama-7b/tree/main]

liuqidong07 · 2024-12-03T07:01:03Z

您好！

我在llama-7b上跑通了bash experiments/llm_cls.bash命令，也得到相关结果数据，但是在知识蒸馏训练小模型的过程中报错，相关错误如一楼所述。

我在运行该项目的过程尝试过llama2-7b-hf，训练到46%报错：
Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run.
建议先用llama-7b跑通试试，如果您尝试llama2的过程中也遇到相同情况烦请告知我解决办法，谢谢！
@gogelan 感谢您对我们工作的关注。我们之前训练也遇到过相似的问题，我查询了一些资料，认为原因在于LLaMA2是使用bf16训练的，如果使用fp16进行SFT就会报这个错。而我当时手里只有V100，没法儿使用bf16训练，也因此最后选用的LLaMA而非LLaMA2。如果您有其他问题也欢迎与我讨论！
祝好
您好，感谢您的回复和解决办法。
File "/home/Users/LEADER-pytorch/models/bert_models.py", line 17, in <module>
    from models.graph_models import FuseEmbeddings
ModuleNotFoundError: No module named 'models.graph_models'
这个问题好像是models文件夹下没有graph_models.py脚本，请问是这个原因吗，能不能上传对应的脚本文件呢，还是说这个可以在其他项目中可以获取，可以的话希望能够提供一个链接，谢谢！

您好，import的FuseEmbeddings在我们的模型中是没有用到的。简单的办法是您直接删去这个import以及里面引用FuseEmbeddings的Bert，就可以解决报错。

祝好

liuqidong07 · 2024-12-03T07:01:29Z

您好，请问这是应要求的模型链接吗？[https://huggingface.co/huggyllama/llama-7b/tree/main]

您好，建议从官方获取LLaMA-7B模型。

12335d · 2024-12-03T08:24:45Z

好的，谢谢您

gogelan · 2024-12-04T13:00:46Z

您好！

我在llama-7b上跑通了bash experiments/llm_cls.bash命令，也得到相关结果数据，但是在知识蒸馏训练小模型的过程中报错，相关错误如一楼所述。

我在运行该项目的过程尝试过llama2-7b-hf，训练到46%报错：
Exception: Current loss scale already at minimum - cannot decrease scale anymore. Exiting run.
建议先用llama-7b跑通试试，如果您尝试llama2的过程中也遇到相同情况烦请告知我解决办法，谢谢！
@gogelan 感谢您对我们工作的关注。我们之前训练也遇到过相似的问题，我查询了一些资料，认为原因在于LLaMA2是使用bf16训练的，如果使用fp16进行SFT就会报这个错。而我当时手里只有V100，没法儿使用bf16训练，也因此最后选用的LLaMA而非LLaMA2。如果您有其他问题也欢迎与我讨论！
祝好
您好，感谢您的回复和解决办法。
File "/home/Users/LEADER-pytorch/models/bert_models.py", line 17, in <module>
    from models.graph_models import FuseEmbeddings
ModuleNotFoundError: No module named 'models.graph_models'
这个问题好像是models文件夹下没有graph_models.py脚本，请问是这个原因吗，能不能上传对应的脚本文件呢，还是说这个可以在其他项目中可以获取，可以的话希望能够提供一个链接，谢谢！
您好，import的FuseEmbeddings在我们的模型中是没有用到的。简单的办法是您直接删去这个import以及里面引用FuseEmbeddings的Bert，就可以解决报错。

祝好

好的，十分感谢您的回复！

liuqidong07 added the environment label Dec 2, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

找不到对应模块 #13

找不到对应模块 #13

gogelan commented Nov 10, 2024

ricartojason commented Nov 11, 2024

gogelan commented Nov 11, 2024

ricartojason commented Nov 12, 2024

gogelan commented Nov 12, 2024

ricartojason commented Nov 13, 2024

12335d commented Dec 2, 2024

liuqidong07 commented Dec 2, 2024

liuqidong07 commented Dec 2, 2024

12335d commented Dec 2, 2024

liuqidong07 commented Dec 2, 2024

12335d commented Dec 2, 2024

gogelan commented Dec 2, 2024

12335d commented Dec 2, 2024

12335d commented Dec 3, 2024

liuqidong07 commented Dec 3, 2024

liuqidong07 commented Dec 3, 2024

12335d commented Dec 3, 2024

gogelan commented Dec 4, 2024

找不到对应模块 #13

找不到对应模块 #13

Comments

gogelan commented Nov 10, 2024

ricartojason commented Nov 11, 2024

gogelan commented Nov 11, 2024

ricartojason commented Nov 12, 2024

gogelan commented Nov 12, 2024

ricartojason commented Nov 13, 2024

12335d commented Dec 2, 2024

liuqidong07 commented Dec 2, 2024

liuqidong07 commented Dec 2, 2024

12335d commented Dec 2, 2024

liuqidong07 commented Dec 2, 2024

12335d commented Dec 2, 2024

gogelan commented Dec 2, 2024

12335d commented Dec 2, 2024

12335d commented Dec 3, 2024

liuqidong07 commented Dec 3, 2024

liuqidong07 commented Dec 3, 2024

12335d commented Dec 3, 2024

gogelan commented Dec 4, 2024