-
Notifications
You must be signed in to change notification settings - Fork 78
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
图像重建问题 #63
Comments
Emu3能够接收多个模态的输入,并且产生多个模态的输出,其主要意义是验证能够仅用最简洁的Next-Token Prediction架构将多模态任务统一。所以,我们在release的图文模型的训练过程中,只采用了T2I和I2T两个类型的数据训练。因此,当前的Emu3模型不具备输入图文交错数据,输出图像的能力。但是在对应的交错数据上训练后,Emu3是能够实现相应功能的。具体可以参考#61 (comment) |
我尝试一下,非常感谢! |
尝试换一下deepspeed版本吧,我们使用zero3 + gradient accumulation是能够正常训练的。参考deepspeedai/DeepSpeed#6793 |
感谢,gradient_accumulation_steps报错的问题解决了,但还是会报CUDA out of memory的错。是我的显存还不够么? |
可以试下减少batch size,或者使用zero3 + offload |
已经把batch size设置为1了,还是会爆显存。使用offload机器会卡死,已经试了好几次了,非常难受。 请问使用lora的时候梯度会很小而且loss不收敛这种情况您有想法吗,我想实在不行就用lora微调一下看看能不能实现这个任务 |
我们没有尝试过使用lora去tune Emu3的模型,但是之前在Emu1上对lora的尝试并没有遇到过不收敛的问题。所以相关的经验也不是很多。 |
好的,我再试一下,非常感谢! |
您好我现在已经微调通了,然后loss8左右开始,4个epoch收敛在3左右下不去了,这是不是不太对呀 |
Emu3是一个非常棒的项目!
根据文章以及代码中的描述,Emu3应该是一个多模态大模型,所以理论上应该支持多模态输入和多模态输出。但是模型目前只有U和G两种模式。
请问您是否考虑过同时输入文字和图片,输出图片的模式?如果没有的话,您是否可以提供一些关于同时输入文字和图片,输出图片的模型修改思路?是否仅仅构建datasets和训练模式就可以做到呢?
非常期待您的答复!
The text was updated successfully, but these errors were encountered: