大摆锤 裸舞 字节开源更生图模子:一个模子拯救总共生图任务,多主体交融遵守SOTA
愚弄字节团队魔改的 FLUX 模子大摆锤 裸舞,不错平直把多个参考主体放进一张图了。
字节团队以 FLUX 为基础模子,建议了新的生图模子 UNO,拯救了图像生成任务中不同输入条款的处理。
不管是单主体进行作风变换,依然不同物体的交融,UNO 都能平直责罚。
字节团队以为,UNO 主要解决的是参考驱动的图像生成中的两个主要挑战——数据可扩张性和主体可扩张性。
传统体式在从单主体数据集扩张到多主体数据集时濒临不毛,且大大批体式仅包涵单主体生成,难以应用于多主体场景。
为了解决这一问题,团队建议了"模子 - 数据共同进化"的新范式,莽撞在增强模子才调的同期,握住丰富可用的实践数据。
多主体参考生图测试中,UNO 的 DINO 和 CLIP 得分均达到了 SOTA 水平。
网友评价说,UNO 看上去是一个庞杂的飞跃,如若确切能责罚多主体参考,将会大幅激勉定制化 AI 智能体的后劲。
另外,团队还在 HuggingFace 上提供了在线试玩,但前提是领有 HF 的 GPU 额度。
一个模子责罚单 / 多主体参考
如起首所述,UNO 将单纯的文生图,以及单 / 多主体参考这些不同的任务都整合到了一个模子当中。
具体来说,除了平直的文生图除外,它不错把多张参考图当中的物体进行组合。
虽然三个物体也照样能很好地组合,官方提供的在线 Demo 当中最多不错上传四张参考图。
也不错对参考主体中的东谈主物特征进行保持,生成不同场景的东谈主物图像。
同期关于东谈主物而言,也不错在保留基本特征的条款下进行作风颐养,包括被 GPT-4o 带火的吉卜力风也能拿持。
应用场景方面,官方给出了诬捏试穿和居品联想这两组示例。
关于 UNO 的单主体生成才调大摆锤 裸舞,团队使用了 DreamBench 进行了测试,使用了三个主要筹算——
DINO 分数、CLIP-I 分数(这两个用于评估主体通常度)和 CLIP-T 分数(用于评估文本诚挚度)。
多主体生成测试则遴荐了一个特别联想的测试集——从 DreamBench 中及第了 30 种不同的双主体组合,包括非生物体和生物体的组合。
最终,UNO 的测试收成不管在单主体依然多主体任务中都处于额外水平。
询查团队还进行了用户询查,邀请了 30 位评估者(包括限度众人和非众人)对 300 个图像组合进行评估。
终局,UNO 在总共评估维度上都赢得了较高评分,特别是在主体通常度和文本诚挚度方面的阐明最为杰出。
此外,团队还展示了 UNO 和一些 SOTA 级模子的遵守对比,不错直不雅感受一下永别。
模子 - 数据共同进化
UNO 遴荐了这一种"模子 - 数据共同进化"的新范式,中枢想想是用较弱的模子生成实践数据,实践更强的模子。
在模子架构方面,UNO 以开源模子 FLUX.1 dev 为基础,接纳了其文生图基础才和解多模态注眼力机制,遴荐了通用定制化模子框架。
具体来说,该框架遴荐渐进式跨模态对都政策,将实践经由分为两个连结阶段——
领先使用单主体数据对预实践的文生图(T2I)模子进行微调,使其赢得基本的主体到图像颐养(S2I)才调;
随后引入多主体数据链接实践,增强模子处理复杂场景的才调。
此外询查团队建议了通用旋转位置镶嵌(UnoPE)技巧,通过为文本和图像美艳分派特定的位置索引,来调控多模态美艳之间的交互。
UnoPE 遴荐从噪声图像美艳最大维度启动的对角线位置编码神气,并通过诊治位置索引范畴来防患生成图像过度依赖参考图像的空间结构,灵验缓解了在扩张视觉主体终局时容易出现的属性沾污问题。
数据方面,团队愚弄 Diffusion Transformer 固有的凹凸文生成才调构建了数据合成框架。
团队领先构建了一个包含 365 个顶层类别的分类树,这些类别来自 Object365 数据集。
在每个类别下,还包含了更细粒度的分类,涵盖年岁、管事和着装作风等维度。
然后愚弄大模子在每个类别中生成丰富各种的主体和场景态状,这些输出与预界说的文本模板集结,不错为文生图模子生成数百万个文本教唆。
最终,询查团队联想了一个渐进式的合成管谈,从单主体生成启动,逐步过渡到多主体凹凸文生成。
来自字节智能创作团队
论文明白,UNO 的作家字节智能创作团队。
据先容,该团队是字节的 AI& 多媒体技巧中台,询查主义包括臆度机视觉、音视频剪辑、殊效处理等技巧。
暴力强奸之前字节建议的用于擢升图像生成模子"好意思感"的 VMix,亦然来自智能创作团队,况且作家与此次的 UNO 基本辩论。
本次 UNO 的名堂认真东谈主是 Fei Ding,是 Vmix 的通信作家,之前还参与过 Realcustom++、Dreamtuner 等名堂的责任。
UNO 的第一作家 Shaojin Wu、通信作家黄梦琪,之前也都参与过 Vmix。
黄梦琪现在是中科大博士在读,2023 年起于今一直在字节实习,瞻望本年毕业,导师是毛震东证明注解。
另外,字节招聘网站明白,智能创作团队现在正在招聘 AIGC 技巧众人、多模态算法众人等岗亭。
论文地址:
https://arxiv.org/abs/2504.02160
名堂主页:
https://bytedance.github.io/UNO/
一键三连「点赞」「转发」「阻挡心」
迎接在评述区留住你的见识!
— 完 —
不到一周!中国 AIGC 产业峰会不雅众正在火热报名中 � � ♀️
全部嘉宾已就位 � � 百度、华为、AWS、MSRA、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 限度创变者将都聚峰会,让更多东谈主用上 AI、用好 AI,与 AI 一同加快成长~
4 月 16 日周三,就在北京,沿途来深度求索 AI 怎样用 � �
� � 一键星标 � �
科技前沿进展逐日见大摆锤 裸舞