文生图的“天花板”被捅破了！Gen-Searcher让AI学会“翻书找答案”：不是背题，是开卷考!

图像生成 Gen 搜索 Searcher

发布于 2026-06-11

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：文生图的“天花板”被捅破了！Gen-Searcher让AI学会“翻书找答案”：不是背题，是开卷考!

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：Gen-Searcher是一种通过搜索增强图像生成的多模态深度搜索智能体，采用两阶段训练和双奖励反馈机制，显著提升知识密集型图像生成质量。

关键要点：

Gen-Searcher是首个训练的多模态深度搜索智能体，具备多跳推理和网络搜索能力，用于图像生成。
构建了专门的数据pipeline（Gen-Searcher-SFT-10k和Gen-Searcher-RL-6k）和评估基准KnowGen。
采用监督微调（SFT）和智能体强化学习（RL）两阶段训练，RL阶段使用基于文本和基于图像的双重奖励反馈。
在KnowGen和WISE基准上显著提升不同图像生成器性能（如Qwen-Image提升约16分），且可迁移至其他生成器（如Seedream 4.5、Nano Banana Pro）。
消融实验验证了训练组件（SFT、RL、双奖励）的有效性，其中文本奖励和图像奖励互补，缺一不可。

内容结构：

亮点直击：介绍Gen-Searcher的核心贡献——首次训练多模态深度搜索智能体，开源项目，构建数据集和基准，实验验证有效。
总结速览：
问题：现有图像生成模型受限于固定内部知识，无法处理需要外部知识的真实场景。
方案：Gen-Searcher——搜索增强智能体，执行多跳推理和搜索，收集文本知识和参考图像支撑生成。
技术：两阶段训练（SFT+RL），双奖励反馈（文本奖励+图像奖励），使用GRPO优化。
效果：在不同生成器上提升，如Qwen-Image在KnowGen上K-Score从14.98提升至31.52。
方法架构：
数据集构建：四阶段pipeline（文本提示构建、智能体轨迹生成、真实图像合成、数据筛选与基准构建）。
KnowGen基准：630个人工验证样本，分为Science & Knowledge和Pop Culture & News两个子集，采用K-Score指标（faithfulness、visual_correctness、text_accuracy、aesthetics加权）。
训练方案：从Qwen3-VL-8B-Instruct初始化，配备search、image_search、browse三种工具，SFT在Gen-Searcher-SFT-10k上训练，RL在Gen-Searcher-RL-6k上训练。双奖励：文本奖励评估输出文本信息质量，图像奖励（K-Score）评估最终图像质量，最终奖励为二者加权和。使用GRPO优化。
实验分析：
KnowGen基准结果：Gen-Searcher显著提升开源和专有生成器性能，如Qwen-Image提升16.54分，Seedream 4.5提升16.28分，Nano Banana Pro提升2.92分。主要增益来自visual correctness和text accuracy。
WISE基准结果：Gen-Searcher+Qwen-Image达0.77（原0.62），超越其他开源模型。
消融实验：完整模型最佳（31.52），移除文本奖励或图像奖励分别降至29.59和29.36；SFT仅达28.15，手工工作流22.91，基线14.98。
定性可视化：Gen-Searcher改进细粒度视觉属性，但下游生成器自身限制（如多主题一致性问题）仍可能导致失败。
参数分析：平衡系数α在0.3-0.6时性能稳健，两个奖励信号均必需。
结论：Gen-Searcher是首个使用智能体强化学习训练的多模态深度搜索智能体，为真实世界图像生成搜索智能体提供开放基础。