上海人工智能实验室,上海创新研究院,上海交大,南京大学,悉尼大学,港中大,清华,共同推出了被誉为新一代多模态生成与理解统一模型的Lumina-DiMOO。
“An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding”,翻译过来就是“面向多模态生成与理解的全方位扩散大语言模型”。关键词:“全方位”。这背后藏着它的独门绝技——“全离散扩散架构”。
传统多模态架构
文本是离散的、有逻辑结构的符号序列;图像是连续的、由像素网格构成的空间信息。AI面临的难题,就是如何让文本和图像联系起来。这就是多模态AI技术的核心挑战:统一表示与对齐。
解决这个问题的思路,就像是给“AI外星人”都教一种“宇宙通用语”。模型需要把文本、图像、音频这些五花八门的数据,统统映射到一个共享的、高维的“语义空间”里。在这个空间里,不同的数据格式被剥离,只剩下最核心的“意义”。
开创这一思路的先驱之一,就是大名鼎鼎的CLIP模型。它的训练方式简单粗暴又极其有效,叫做“对比学习”。就像一个老师,拿出海量的“图片-文字”配对作业,告诉模型:“看,这张图和这段话是天生一对,你们要靠得近一点。”同时又指着另一对不匹配的图文说:“你们俩八竿子打不着,离远点!”经过亿万次这样的“拉近”和“推远”训练后,模型就学会了这种“宇宙通用语”。它能理解,“苹果”这个词,既可以指向一张红彤彤的水果图片,也可以指向一个印着被咬了一口苹果标志的手机图片。这种跨模态的理解和对齐能力,是后续所有多模态生成模型的基础。
解决了语言问题,接下来就是怎么盖楼,也就是模型的架构设计。目前,主流的多模态大模型架构,主要是在强大的Transformer基础上进行扩展和融合。你可以把Transformer想象成一个超级智能的“信息加工厂”,它最擅长处理序列数据,并能通过“注意力机制”抓住信息中最关键的部分。但问题来了,不同模态的数据,这些“原材料”,该在哪个环节送进加工厂呢?这就催生了三种主流的“融合策略”。
“早期融合”。这种方法简单直接,就像做大杂烩。它在数据处理的最开始阶段,就把图像特征、文本特征等粗暴地拼接在一起,或者直接相加,然后一股脑儿地喂给一个共享的Transformer编码器。优点是简单,计算量相对小。缺点也很明显,不同模态的数据特性差异巨大,这么早地“生拉硬拽”在一起,很可能会互相干扰,导致信息损失,效果往往不尽如人意。
“中期融合”,也叫“交叉融合”。它会让文本和图像等不同的原材料,先进各自的“专属厨房”(独立的编码器)进行初步加工,提取出各自的精华特征。然后,在加工厂的核心区域,通过一个叫做“交叉注意力机制”,让这些半成品互相“交流”。比如,图像特征可以“看一看”文本特征里哪些词是重点,文本特征也可以“瞅一瞅”图像里哪些区域最关键。这种方式能够实现更深层次的信息交互,效果通常比早期融合好得多,也是目前很多高性能模型采用的策略。
“晚期融合”。这种方法就像是各自做完一道拿手菜,最后再拼成一个套餐。不同模态的数据从头到尾都走自己的独立处理流水线,直到最后输出结果的阶段,才把各自的结论融合起来做最终决策。这种方法保留了各模态信息的独立性,但在需要深度交互的任务上,往往会因为“沟通”太少而力不从心。
Lumina-DiMOO的创新之处,就在于它没有在这三种传统路径上修修补补,而是用一种全新的、更底层的逻辑,对整个多模态生成与理解的过程进行了重构。
Lumina-DiMOO四大“核武器”
传统的多模态生成模型,比如一些早期的文本到图像模型,采用的是“自回归”(AR)范式。就像我们写文章一样,一个字一个字地往外蹦。模型生成图像时,也是一个像素块一个像素块地生成,后一个像素块的生成要依赖于前面所有已生成的像素块。这种方式逻辑清晰,但缺点是致命的:慢!而且是一维的、串行的过程,很容易出现误差累积,生成到后面就“跑偏了”。
后来,扩散模型异军突起,它反其道而行之。扩散模型生成图像的过程,更像一位雕塑家。它先从一整块随机噪声(可以想象成一块混沌的“大理石”)开始,然后通过一个逐步去噪的过程,一步一步地把有意义的结构和细节“雕刻”出来,直到最后呈现出一幅清晰的图像。这个过程是并行的,质量更高,但早期的扩散模型在处理不同模态,尤其是离散的文本时,总有点水土不服。
Lumina-DiMOO的开创性在于,它首次实现了“全离散扩散建模”(Fully Discrete Diffusion Modeling)。它不仅用扩散的方式处理图像,还巧妙地把文本等离散数据也纳入了这个统一的扩散框架中。它将所有模态的数据都看作是可以被逐步“去噪”和“生成”的对象。这种统一的视角,使得模型内部的结构异常简洁和优雅,避免了不同模态处理流程“打架”的问题。这样做的好处是显而易见的:不仅生成质量大幅提升,更重要的是,采样效率得到了前所未有的提升。
在Lumina-DiMOO的世界里,生成和理解不再是两件独立的事。它支持的任务范围之广,几乎涵盖了当前图像多模态领域所有的热门应用。从最基础的“文本到图像生成”,“图像到图像生成”,或者“擦掉照片里那个乱入的路人”,甚至主题驱动生成等等一系列任务,它都能心领神会。
“复古皮革封面书籍,封面烫金写着‘Knowledge is Power’”的案例,从皮革的质感、烫金的光泽,到复古字体的设计,细节处处彰显着模型的“匠心”。
这还没完,它的“高级图像理解”能力同样强悍。你扔给它一张复杂的图片,它不仅能告诉你图片里有什么,还能像一个艺术评论家一样,分析图片的构图、光影、氛围,甚至推断图片背后的故事。
“橙汁溅出形成‘Smile’字样”的图片,不仅考验了模型对液体物理动态的理解,还考验了它对文字形态和艺术创意的把握。
第三大创新,是“更高的采样效率”。前面我们提到,Lumina-DiMOO的架构本身就带来了速度优势。但它的研发团队显然是群“卷王”,他们觉得还不够快。于是,他们专门设计了一种叫做“基于最大Logit的缓存方法”(Max Logit-based Cache)的黑科技。
这个技术听起来复杂,但原理可以这么理解:在模型生成图像的每一步(去噪过程),都需要做出成千上万个小决策。这个缓存方法就像一个“超级备忘录”,能够智能地记下那些最有可能被用到的“高分决策”,在下一步需要时直接调用,省去了大量的重复计算。就这么一个看似微小却极其精妙的改进,直接将采样速度又提升了整整2倍。
在实际应用中,Lumina-DiMOO在生成图像时,通常只需要64步采样就能得到高质量结果,而在进行图像理解这类更复杂的任务时,也能通过灵活调整块长度和采样步数,在性能和效率之间找到完美的平衡点。
最后,是它“卓越的性能表现”。Lumina-DiMOO在多个业界公认的权威基准测试中,交出了一份近乎满分的答卷。它的8B(80亿)参数规模的模型,在GenEval、DPG、OneIG-EN、TIIF等多个榜单上,直接屠榜,超越了所有已知的开源统一多模态模型。特别是在一些被认为是多模态模型“试金石”的细分能力上,比如多物体生成(能否准确生成图片中包含的多个物体)、颜色控制(能否精准控制物体的颜色)、位置精度(能否把物体放在指定的位置)等方面,Lumina-DiMOO的领先优势尤为明显。
不服?看看数据多离谱
在GenEval这个综合性生成能力基准测试上,Lumina-DiMOO与一众顶级模型的正面硬刚。这里面既有“专用生成模型”,也有像GPT-4o、Janus-Pro这样的“统一多模态模型”,个个都是名声在外的狠角色。
参数规模,Lumina-DiMOO是8B,在性能上,Lumina-DiMOO却展现出了跨级别的统治力。
在“单物体”生成上,它拿到了满分1.0,这意味着对于简单的指令,它几乎能百分之百完美复现。在更考验构图能力的“双物体”生成上,它拿到了0.94分,与业界顶尖的SD3-Medium和BAGAL持平,甚至超过了GPT-4o(0.92)。这说明它对物体之间关系的理解非常到位。
Lumina-DiMOO在“计数”、“颜色”、“位置”、“属性”这几项上,都是遥遥领先。这几个指标恰恰是过去多模态模型最容易翻车的地方。比如你让它画“3只猫”,它可能画出2只或者4只;你让它画“一个红色的球在一个蓝色的盒子左边”,它很可能把颜色搞混,或者把位置放错。而Lumina-DiMOO在这些“细活儿”上表现出的领先水平,证明了其架构在精准理解和执行复杂指令方面的巨大优势。特别是“位置”和“属性”这两项,是衡量模型是否真正理解了空间关系和语义概念的关键。Janus-Pro在“位置”上拿到0.79的高分已经很惊人了,而Lumina-DiMOO的表现相当“恐怖”了。
看看Lumina-DiMOO在各种任务上的实际表现:
- 风格转换:
- 主题驱动:
- 控制:
- 重绘:
- 扩展:
- 理解:
- 根据图片中显示的问题,请先进行推理,然后从选项中选择正确的答案。问题:根据图像,如果角度y与32度的角度形成一条直线,那么它的值是多少度? A. 148 B. 152 C. 180 D. 32
它能准确推理出正确答案 A。
Lumina-DiMOO的问世,意味着,全球的开发者和研究者都可以站在这个巨人的肩膀上,去探索更多可能,去创造更多价值。
从医疗影像的智能分析,到自动驾驶的精准感知,再到虚拟现实的沉浸式内容构建,Lumina-DiMOO所代表的技术突破,将渗透到未来社会的方方面面。
参考资料:
https://synbol.github.io/Lumina-DiMOO
https://github.com/Alpha-VLLM/Lumina-DiMOO
https://huggingface.co/Alpha-VLLM/Lumina-DiMOO