北航&美团等最新EditThinker：给AI修图装上“大脑”，Flux、OmniGen2瞬间智商暴涨！

编辑本文 EditThinker 指令推理

发布于 2025-12-20

139

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：

提出了一种迭代推理框架“边思考边编辑”（Think-while-Edit），通过多模态大语言模型 EditThinker，将图像编辑任务构建为批判、优化、重复的循环过程，显著提升了多样化场景下的图像编辑模型性能。

关键要点：

创新性提出“边思考边编辑”框架，将图像编辑任务从单轮指令范式转变为多轮迭代推理流程。
构建多模态大语言模型 EditThinker，通过监督微调和强化学习训练，联合执行批判分析与指令优化。
发布 THINKEDIT-140k 数据集，包含多轮对话样本，为推理驱动的编辑模型训练提供支持。
在多个基准测试中验证了框架的广泛适用性，显著提高了编辑模型的指令遵循能力和输出质量。
消融研究揭示了框架中迭代推理轮次、训练策略以及专家模型能力的关键贡献。

内容结构：

1. 解决的问题：

现有基于指令的图像编辑方法存在以下局限性：

单轮执行模式导致指令遵循准确率低。
缺乏推理机制，难以应对复杂或多步编辑任务。

2. 提出的方案：

“边思考边编辑”框架通过以下方式解决上述问题：

迭代式评估编辑结果，优化原始指令，并重复执行，直至满足用户需求。
将编辑工作流解耦为两部分：思考者（负责推理与评估）和编辑器（执行具体编辑指令）。

3. 应用的技术：

构建 EditThinker：多模态大语言模型联合输出批判评分、推理过程及改进指令。
采用监督微调（SFT）和强化学习（RL）相结合的训练策略。
发布 THINKEDIT-140k 数据集，提供指令优化监督信号。

4. 达到的效果：

在四个主流基准测试中显著提升了指令遵循能力和编辑质量。
框架表现出强泛化性和广泛适用性，适合复杂、多步骤的编辑任务。

5. 消融研究：

研究验证了以下组件的重要性：

“边思考边编辑”范式优于单轮指令。
多轮迭代推理显著提升编辑性能。
两阶段训练策略（SFT 和 RL）对优化模型能力至关重要。
专家模型能力越强，框架性能提升越显著。

文章总结：

本文提出的迭代推理框架和多模态大语言模型显著提升了图像编辑任务的准确性和质量，开创了智能化、批判式图像编辑的新方向，为交互式视觉系统的未来发展提供了重要参考。

AI生成未来

文章来源：

AI生成未来

扫码关注公众号

相关推荐

CVPR`24 | 4D编辑哪家强？浙大首次提出通用指导4D编辑框架：Instruct 4D-to-4D

559

编辑 4D 本文场景

点击下方卡片，关注“AI生成未来”>>后台回复“

颠覆传统！V2Edit零训练黑科技：指令级视频魔法+3D场景大改，原画质无损秒变爆款

401

编辑视频本文 V2Edit

浙大等开源V2Edit零训练黑科技：指令级视频魔法+3D场景大改

ICLR 2025 | 被AI“洗图”也能识别版权！水印技术重大突破：VINE模型全面碾压旧方法!

554

图像水印编辑模型

点击下方卡片，关注“AI生成未来”如您有工作需要??

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！

363

编辑图像一致性对应性

点击下方卡片，关注“AI生成未来” 后台回复“GAI”?

史诗级突破！一个模型让你秒变PS大神，字节最新InstructX仅用“看图”就学会了剪视频

184

编辑视频图像 MLLM

AI生成未来知识星球免费开放！

ECCV`24 | 比DragDiffusion快100倍！RegionDrag：快·准·好的图像编辑方法！港大&牛津

677

编辑基于区域拖拽

点击下方卡片，关注“AI生成未来”>>后台回复“

AI生成未来

AIGC最新技术及资讯

323 篇文章

浏览 281K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

查看方案

AI生成未来的其他文章

2024年了,Diffusion模型还有什么可做的？

点击下方卡片，关注“AI生成未来”>>后台回复“

ECCV`24 | 编辑能力无上限！北航&谷歌&旷视等开源Chat-Edit-3D: 3D 场景编辑新范式！

点击下方卡片，关注“AI生成未来”>>后台回复“

从PixArt α 到 Σ: 关于高效Diffusion Models你想知道的一切

点击下方卡片，关注“AI生成未来”>>关注【AI生?

参数减少99.5%，媲美全精度FLUX！字节跳动等发布首个1.58-bit FLUX量化模型

点击下方卡片，关注“AI生成未来”后台回复“GAI”??

寥寥数笔，动画自成！阿里Tora: 首个轨迹引导的DiT创新实现精确运动控制视频生成

点击下方卡片，关注“AI生成未来”>>后台回复“

随机阅读

如何成为名副其实的测试架构师？

07-13

作为一名敏捷教练的自我修养 - 手绘Scrum框架

07-15

扔给团队一套标准流程为什么不能变敏捷？

07-13

01-对比传统项目管理敏捷能带来哪些改变？

07-13

AI伦理箴言：防止AI杀死比赛

08-17

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询

北航&美团等最新EditThinker：给AI修图装上“大脑”，Flux、OmniGen2瞬间智商暴涨！

版权声明

文章主旨：

关键要点：

内容结构：

1. 解决的问题：

2. 提出的方案：

3. 应用的技术：

4. 达到的效果：

5. 消融研究：

文章总结：

“你觉得客户需要”是杀死TA的最后一根稻草 | IPD集成产品开发

还在用多套工具管项目？

联系我们

融实践库

微信公众号

微信视频号

社区微信群