💡 反刍系列,即对他人输出内容的理解 把那些匆忙剪藏的内容拿出来再嚼吧两下,或许能品尝到不同滋味
内容原链:https://m.okjike.com/originalPosts/67e54c4c7cb8c547e231119b
一、主流路线 #
大多采用扩散模型(DALL·E 2/Stable Diffusion/Midjourney)
- 本质:是在图像空间,添加噪声,学习如何从噪声中,“还原”图像,是一种概率反演过程。
- 痛点:推理慢(需多步反向去噪);图文对齐弱;多轮修改难。
二、GPT4o的路线 #
自回归生成图像
不是在图像空间“修复”,而是在图像编码空间,逐“像素/patch地”生成图像。像语言模型,逐词生成句子一样。
核心逻辑:图像Token化(很可能用“类DALL·E 3的图像tokenizer”); 每次预测(一个/多个)图像token;按“先前token,预测后续 token”的方式递推,逐步拼出整张图像。
不是单纯的“文本->图像生成”,是多模态(图/文/对话)统一建模的结果。
- **更高效的图文对齐:**通过joint training,在训练中学习,如何从语言语境中,预测图像token;
- 下文一致的图像修改:自回归架构,天然支持“基于已有上下文,继续生成”。用户可连续,对图像进行“对话式修改”,无需重启生成。如:先生成一张沙滩图,再说“把天空换成晚霞”,能实现“局部可控重生成”。
缺点
- 高分辨率图像,仍存在token爆炸问题;
- 极端细节和艺术感,仍可能逊于SD类扩散模型。
三、个人思考 #
- 为什么GPT总是能选到不同的技术路线,并且还做出了业务成果?
- 可能未来图像模型也会进行分流,稳定性要求高的选择自回归模型;发散性要求高的选择扩散模型