Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于模型设计的几个疑问 #104

Open
galactica147 opened this issue Oct 29, 2024 · 2 comments
Open

关于模型设计的几个疑问 #104

galactica147 opened this issue Oct 29, 2024 · 2 comments

Comments

@galactica147
Copy link

请教一下关于模型设计的问题:

  1. 为了单一字符的生成而采取多样本的同一作者样本作为style samples,并且对于目标字符除了提供字符本身的信息之外,另外还附加了一个渲染图像作为额外输入,你们会认为这样的输入设置会造成太多信息冗余吗?实际情况中,更多的可能只有一个很短的style input + 目标字符串(“你好,世界”), 但这个单字符渲染图像的限制就导致无法扩展到多字符合成。不知道这么理解是否正确?

  2. 那个渲染的图像是怎么生成的?看起来不像是CASIA的原始数据,是根据某个中文字体生成的吗?
    谢谢!

@dailenson
Copy link
Owner

dailenson commented Oct 31, 2024

您好~第一个问题:我们认为并不会有信息冗余哈啊哈哈,因为用户只需要输入text就好,text渲染成image是模型内部的事情,对用户是完全不可见的。而且渲染出的image可以提供更丰富的内容信息,这个在很多论文中已经验证过了。当然,你说的需要同一个作者的多个样本作为风格参考,这个确实不方便,这个问题在我们的最新工作One-DM已经得到解决了,One-DM仅需一张参考样本!然后目标字符串这个问题,理论上把“你好,世界”这五个字符拼接在一起作为内容输入,就可以直接合成多字符。

第二个问题:那是一种特殊的平均化字体,他的出处你可以翻一下我们的论文,我们在网盘中也提供了该文件。

@galactica147
Copy link
Author

galactica147 commented Oct 31, 2024

您好~第一个问题:我们认为并不会有信息冗余哈啊哈哈,因为用户只需要输入text就好,text渲染成image是模型内部的事情,对用户是完全不可见的。而且渲染出的image可以提供更丰富的内容信息,这个在很多论文中已经验证过了。当然,你说的需要同一个作者的多个样本作为风格参考,这个确实不方便,这个问题在我们的最新工作One-DM已经得到解决了,One-DM仅需一张参考样本!

哈哈,有道理,如果要求效果也许这种输入是必要的。另外好奇一点的是,目前的输入信息完全是基于图像的,你们有没有试过如果用style sample的原始online信息--独占使用或者是融合使用--能不能取得类似的效果?

然后目标字符串这个问题,理论上把“你好,世界”这五个字符拼接在一起作为内容输入,就可以直接合成多字符。

能否详细解释一下?这个至少需要改模型架构并且重新训练才行吧?

第二个问题:那是一种特殊的平均化字体,他的出处你可以翻一下我们的论文,我们在网盘中也提供了该文件。

请问那个SCFont有开源的原始字体吗?网盘里面存的是渲染完成的字体图片了。

谢谢以上!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants