中文数据训练问题请教

Hi~ 我发现ViTSTR不支持中文，训练时clip_loss难以收敛,是否有替代的模型～

2.对于小的文字，如16*16px，vae的表现似乎不太好，大佬是否有想法～