和记官方网站
当前位置: 首页 > 和记官方网站

Salesforce开源统一多模态模型BLIP3-o图像理解与生成全拿下

类别:和记官方网站日期:2025-05-27 15:19:35
我要分享

  OpenAI 的 GPT-4o 在图像理解、生成和编辑任务上展现了顶级性能。流行的架构猜想是:

  该混合架构将自回归与扩散模型的优势结合。Salesforce Research、马里兰大学、弗吉尼亚理工、纽约大学、华盛顿大学的研究者在最新的研究(统一多模态模型 BLIP3-o)中也采用了自回归 + 扩散框架。

  在这个框架里,自回归模型先生成连续的中间视觉特征,用以逼近真实图像表示,进而引出两个关键问题:

  真实特征来源 (Ground-truth features):用 VAE 还是 CLIP 将图像编码为连续特征?特征对齐方式:使用 MSE 损失,还是借助扩散模型(Flow Matching)来对齐预测与真实特征?

  VAE:将图像编码为 low level 像素特征,以获得更好的重建质量。但 VAE 编码器在处理更高分辨率输入时,会生成更长的向量序列,从而增加训练过程中的计算负担。CLIP + Diffusion:先将图像映射到 high level 语义特征,再通过扩散模型重建真实图像。在实际操作过程中,会先用 CLIP 得到图像特征,然后基于 CLIP feature 训练一个扩散模型来重建图像。该方法好处是无论输入图像分辨率如何,每张图像都可编码为固定长度的连续向量 (比如长度为 64 的向量),这种编码方式能有较好的图像压缩率;但需要额外训练来使扩散模型适配不同的 CLIP 编码器。

  针对自回归模型预测的视觉特征与 VAE/CLIP 提供的真实特征,有两类训练目标:

  CLIP + MSE:最小化预测表征与 CLIP 真实表征之间的 MSE, 比如 Emu2、SeedX。在生成图片的时候,自回归模型生成视觉特征,基于这个视觉特征,使用一个扩散模型来解码图片。CLIP + Flow Matching:以自回归模型预测的视觉特征为条件,使用流匹配损失来训练 Diffusion Transformer,以预测真实的 CLIP 表征。在生成图片的时候,自回归模型生成视觉特征,基于这个视觉特征,Diffusion Transformer 生成一个 CLIP feature,然后再基于这个 CLIP feature,使用一个轻量的扩散模型来解码图片。整个过程涉及两次扩散过程,第一次生成 CLIP feature,第二次生成真实图片。VAE + Flow Matching:以自回归模型预测的视觉特征为条件,使用流匹配损失来训练 Diffusion Transformer,以预测真实的 VAE 表征。在生成图片的时候,自回归模型生成视觉特征,基于这个视觉特征,Diffusion Transformer 生成一个 VAE feature, 由 VAE 解码器来生成真实图片。

  Caption: 在统一多模态模型中,图像生成有三种设计方案。所有方案均采用自回归 + 扩散框架,但在图像生成组件上各有不同。对于流匹配损失,保持自回归模型冻结,仅微调图像生成模块 (Diffusion Transformer),以保留模型的语言能力。

  下图对比了这三种方案在相同设置下的表现,证明CLIP + Flow Matching能在提示对齐、图像多样性与视觉质量之间取得最佳平衡。

  研究者发现将图像生成集成到统一模型时,自回归模型对语义级特征(CLIP)的学习比对像素级特征(VAE)的学习更为高效。同时,将流匹配 (Flow Matching)作为训练目标能够更好地捕捉图像分布,从而带来更丰富的样本多样性和更出色的视觉质量。同时有两个阶段的扩散过程,相对于传统的一个阶段的扩散模型,将图像生成分解成了两个阶段,第一阶段自回归模型和 diffusion transformer 只负责生成语义特征,第二阶段再由一个轻量的扩散模型来补全 low-level 特征,从而大幅减轻训练压力。

  通过 CLIP 编码器,图像理解与图像生成共用同一语义空间,实现了两者的统一。

  研究者采用顺序训练(late fusion)而非联合训练(early fusion),原因在于:

  可以冻结自回归模型,保留其图像理解能力;把全部训练资源集中在图像生成模块,避免多任务间的相互干扰。

  caption:联合训练(early fusion)同时更新理解和生成模块,顺序训练 (late fusion)先独立调优「理解」,再冻结骨干只训练「生成」。

  预训练数据:25M 开源图文 + 30M 专有图像图像字幕 (caption):均由 Qwen-2.5-VL-7B-Instruct 生成,平均 120 token;为增强对短提示的适应,还额外混入~10%(6M)的短字幕(20 token)4B 参数开源模型:纯 25M 开源图文对,及~10%(3M)短字幕指令微调:GPT-4o 生成 60K 条高质量示例,显著提升提示对齐和视觉美感

  本文首次系统地探索了结合自回归与扩散架构的统一多模态建模,评估了三个关键维度:图像表示(CLIP 特征 vs. VAE 特征)、训练目标(流匹配 vs. MSE)和训练策略(early fusion vs. 顺 late fusion)。实验结果表明,将 CLIP 嵌入与流匹配损失相结合,不仅加快了训练速度,也提升了生成质量。

  基于这些发现,本文推出了 BLIP3-o, 一系列先进的统一多模态模型,并通过 BLIP3o-60k 6 万条指令微调数据集,大幅改善了提示对齐效果和视觉美感。研究者还正在积极开展该模型的应用研究,包括迭代图像编辑、视觉对话和逐步视觉推理。

  05月17日,广西侨办恭贺2024新春,ayx乐鱼app官方下载,网上在线打鱼,黄金城gcgc手机版下载,鸿博体育客户端下载

  05月17日,【每日一习话】下更大气力把队伍建强、让干部过硬,365bet足球滚球盘,天天街机捕鱼无限金币,大型体育平台有哪些,必赢备用网址

  05月17日,6月13日人民币对美元中间价报7.1122元 上调11个基点,bob sport,巴黎人下载网址,足球赛外围怎么买球,bob88体育官网

  05月17日(两会声音)中国大洋科考首位女首席科学家:加强自主创新 助力海洋强国芒果体育平台下载app申博网址是多少万博手机max手机版ag亚官网网址

  05月17日中国援尼泊尔医疗队:助当地医院填补多项腔镜手术空白英亚y6app龙8国际登陆网站送彩金游戏美高梅平台app

  05月17日直播带货套路“再升级”,消费者维权“有点难”皇家AAA亚洲彩票安卓版下载千炮捕鱼平台网站leyu乐鱼官网app下载……

  05月17日,广州海关开展校园普法活动,完美体育下载官网,百人牛牛游戏app,火狐官网,盛世app下载安装

  05月17日,“福宝”正式与公众见面!,凤凰彩票官网是多少,快3全天计划群,美高梅下载,澳门永利注册登录

  05月17日美国加州北部海域发生7.0级地震哪里可以赌钱买球的APP哪个好ag真人百家家乐极速体育网站

  05月17日,(乡村行·看振兴)江西高安:做好腐竹产业文章 走好产业振兴之路,BET9app下载,凯发娱乐网页版登录,AG真人官方入口是多少,银河国际城网站

  05月17日,福建春节全力保供稳价促消费 引导商贸流通企业节日期间正常营业,新宝6平台登陆,体育信用网,永利体育下载地址,365体育直播在线亿,雷速体育即时比分足球,365bet平台盘口,千眼体育官网,kaiyun登录入口登录官网

  05月17日【我们共芳华——党外人士话复兴】中国国家话剧院院长田沁鑫:我是个“i人”,但一排戏就变得犀利永利体育登录彩神彩票网址登录电玩捕鱼大作战旺角娱乐城

  05月17日【中新画报】歘歘歘!全明星“天团”炫舞长空sheng game云顶2322备用网址j9九游会登录入口九游会j920221

  05月17日暴风雪来袭 美国东北多地进入紧急状态m6vip88必威亚洲备网线入口

  混运食用油29.38吨被分装销售,看三国还能收获法律知识交通运输部:7月29日—8月4日全国货运物流有序运行线集团紫色版本新濠天地投注登录下载注册就送10元

  江西一水库水面惊现8米大圆气泡,李现朱一龙都被湖北文旅摇来了(巴黎奥运)中国代表团最小运动员郑好好亮相滑板女子碗池赛环探体育下载app地址国探网备用网址亚新体育客户端下载手机网赌登录

  黑神话悟空全球总销量破千万,林诗栋横扫林昀儒游览博物馆时被野猫抓伤谁来担责?ag真人是真是假升博竞彩官网QY球友会M6在线注册

  面对面,《艾尔登法环》DLC要来了中山大学与深圳市将开展新一轮合作 推进深圳校区高质量发展线体育唯一授权官方乐天娱乐城篮球比分188

  陈情令,黄一鸣称孩子是王思聪的沂蒙山区老人手工缝制虎头鞋帽 勾起年味记忆体育平台怎么赚钱bat365德州app哪个还可以玩百万赢家

  月亮与蛋糕2,丁俊晖终结五年冠军荒逾百岁老医生回忆在阿尔及利亚、朝鲜战场的援外岁月必赢亚洲官网登录手机号利来国际官网线体育app

  网约车订单被层层转卖,Re: 复仇-在欲望的尽头-湖北省政协十三届二次会议闭幕电玩捕鱼手机版下载刻成真人的国际象棋pp体育主页贝博体育在哪下载app