gpt模型的注意力头数n_head会影响模型在哪些方面的性能？怎样有效提升模型处理多轮对话的准确率？ #98

oerifjmerefver · 2022-09-05T09:20:08Z

我增加了隐藏层n_layer的数量，模型处理单轮对话的准确率提升了很多，但是处理多轮对话的准确率没有多少提升
然后我注意到了注意力头数n_head，但是我并不确定它能否有效提升多轮对话的准确率。我尝试将它从12修改为96，发现准确率依然没有特别的提升

Provide feedback