Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

在新的推理上表现较差 #40

Open
Jerry-sjw opened this issue Sep 12, 2024 · 1 comment
Open

在新的推理上表现较差 #40

Jerry-sjw opened this issue Sep 12, 2024 · 1 comment

Comments

@Jerry-sjw
Copy link

您好,我对自己采集的数据进行了训练和测试,其中替换了中文特征提取网络的权重(网络仍然为hubert,权重更换为新的训练权重),将迭代次数增加到了10w。结果在测试集上有良好的表现,而新的语音则较差。我观察了生成的ply文件,发现在嘴巴处点云拟合结果较差,我想跟您请教一下:
1.这是否是因为高斯分裂产生的结果?因为在除了口型处的点云,其他部分点云效果仍然较好。
2.对比您提供的视频,是否头部有足够的晃动才能获得更好的位姿估计和效果?

针对这种高斯重建不好的情况,您有什么办法或者经验可以处理吗?其头部点云和嘴巴部分高斯渲染结果如下:
1726113101974
1726113322764

@Fictionarry
Copy link
Owner

您好,

  1. 如果所说的中文hubert是这个的话 https://github.com/TencentGameMate/chinese_speech_pretrain ,我感觉还是不要换比较好。大多数中文pretrain的hubert和wav2vec的feature dim都很高,可能造成很严重的过拟合
  2. 不建议完全通过静态的点云来判断实际拟合效果,后续deformation会带动点产生位移,产生的结构跟静态时看到的不一样。并且由于视角限制,有时有些部位的3D结构会存在歧义性,具体能不能学到正确的3D结构跟数据有很大的关系。在不改变头部姿态范围的情况下,有歧义性的三维结构不会影响到最终的2D渲染效果,直接看最后的2D结果的好坏就行了
  3. 跟头部晃动没关系

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants