Hi~ 我发现ViTSTR不支持中文,训练时clip_loss难以收敛,是否有替代的模型~ 2.对于小的文字,如16*16px,vae的表现似乎不太好,大佬是否有想法~
Hi~ 我发现ViTSTR不支持中文,训练时clip_loss难以收敛,是否有替代的模型~
2.对于小的文字,如16*16px,vae的表现似乎不太好,大佬是否有想法~