北航&美团等最新EditThinker:给AI修图装上“大脑”,Flux、OmniGen2瞬间智商暴涨!

编辑 本文 EditThinker 指令 推理
发布于 2025-12-20
14

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:

提出了一种迭代推理框架“边思考边编辑”(Think-while-Edit),通过多模态大语言模型 EditThinker,将图像编辑任务构建为批判、优化、重复的循环过程,显著提升了多样化场景下的图像编辑模型性能。

关键要点:

  • 创新性提出“边思考边编辑”框架,将图像编辑任务从单轮指令范式转变为多轮迭代推理流程。
  • 构建多模态大语言模型 EditThinker,通过监督微调和强化学习训练,联合执行批判分析与指令优化。
  • 发布 THINKEDIT-140k 数据集,包含多轮对话样本,为推理驱动的编辑模型训练提供支持。
  • 在多个基准测试中验证了框架的广泛适用性,显著提高了编辑模型的指令遵循能力和输出质量。
  • 消融研究揭示了框架中迭代推理轮次、训练策略以及专家模型能力的关键贡献。

内容结构:

1. 解决的问题:

现有基于指令的图像编辑方法存在以下局限性:

  • 单轮执行模式导致指令遵循准确率低。
  • 缺乏推理机制,难以应对复杂或多步编辑任务。

2. 提出的方案:

“边思考边编辑”框架通过以下方式解决上述问题:

  • 迭代式评估编辑结果,优化原始指令,并重复执行,直至满足用户需求。
  • 将编辑工作流解耦为两部分:思考者(负责推理与评估)和编辑器(执行具体编辑指令)。

3. 应用的技术:

  • 构建 EditThinker:多模态大语言模型联合输出批判评分、推理过程及改进指令。
  • 采用监督微调(SFT)和强化学习(RL)相结合的训练策略。
  • 发布 THINKEDIT-140k 数据集,提供指令优化监督信号。

4. 达到的效果:

  • 在四个主流基准测试中显著提升了指令遵循能力和编辑质量。
  • 框架表现出强泛化性和广泛适用性,适合复杂、多步骤的编辑任务。

5. 消融研究:

研究验证了以下组件的重要性:

  • “边思考边编辑”范式优于单轮指令。
  • 多轮迭代推理显著提升编辑性能。
  • 两阶段训练策略(SFT 和 RL)对优化模型能力至关重要。
  • 专家模型能力越强,框架性能提升越显著。

文章总结:

本文提出的迭代推理框架和多模态大语言模型显著提升了图像编辑任务的准确性和质量,开创了智能化、批判式图像编辑的新方向,为交互式视觉系统的未来发展提供了重要参考。

AI生成未来