文生图的“天花板”被捅破了!Gen-Searcher让AI学会“翻书找答案”:不是背题,是开卷考!
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
亮点直击
Gen-Searcher:首次探索并训练了一种用于图像生成的多模态深度搜索智能体。我们已将该项目完全开源,希望 Gen-Searcher 能为未来的相关研究提供开放的基础架构。 构建数据pipeline与基准测试:为了支持模型训练,开发了专门的数据pipeline来构建“搜索密集型”图像生成数据,并由此产生了两个训练数据集:Gen-Searcher-SFT-10k 和 Gen-Searcher-RL-6k。此外还引入了 KnowGen,这是一个极具挑战性的新基准,专门用于评估在知识密集型真实场景下,基于搜索增强的图像生成能力。 实验验证有效性:广泛的实验证明了 Gen-Searcher 的卓越性能。方法使 Qwen-Image 在 KnowGen 基准上提升了约 16个点,在 WISE 基准上提升了约 15个点。
总结速览
解决的问题
现有的图像生成模型虽能生成高保真图像,但根本上受限于预训练阶段获得的固定内部知识,在需要丰富世界知识或最新信息的真实场景中经常失效。
提出的方案
Gen-Searcher——首个经过训练的搜索增强图像生成智能体,能够执行多跳推理和搜索,收集文本知识和参考图像以支撑有根据的生成。该工作还构建了专门的数据pipeline,策划了两个高质量数据集(Gen-Searcher-SFT-10k和Gen-Searcher-RL-6k),并引入了KnowGen基准用于评估。
应用的技术
采用两阶段训练方案,先进行监督微调(SFT),再进行基于智能体的强化学习(agentic RL)。RL阶段采用双奖励反馈机制,结合基于文本的奖励(,评估输出文本包含信息的充分性、正确性和生成相关性)和基于图像的奖励(,即K-Score,评估最终生成图像质量),最终奖励计算公式为 。优化使用GRPO算法,优势函数计算为 。
达到的效果
Gen-Searcher在不同图像生成主干网络上均带来显著提升,如Qwen-Image在KnowGen上的K-Score从14.98提升至31.52(约16.5分提升)。更值得注意的是,训练于Qwen-Image的Gen-Searcher可直接应用于Seedream 4.5和Nano Banana Pro而无需额外训练,分别带来约16分和3分的提升,展现出强大的可迁移性。在WISE基准上,Gen-Searcher将Qwen-Image从0.62提升至0.77。
方法架构
数据集构建
高质量训练数据对于开发能够执行多跳深度搜索和推理以进行图像生成的搜索智能体至关重要。然而,此类数据并非天然存在,因为它需要对齐的搜索密集型提示、智能体搜索轨迹和有根据的图像的三元组。
为解决这一挑战,工作设计了一个专门的数据pipeline,自动构建用于搜索支撑图像生成的训练数据。整体pipeline包含四个阶段:文本提示构建、智能体轨迹生成、有根据的图像合成,以及数据筛选与策划。如下图3所示为该数据策划pipeline的示意图。
文本提示构建。首先构建需要在图像生成前进行深度网络搜索的文本提示。为确保多样性和真实的搜索难度,采用两种互补策略。主要方法使用精心设计的提示工程指导Gemini 3 Pro生成跨广泛类别的多跳搜索密集型提示,包括动漫、建筑、艺术、天文、生物、名人、化学、文化、工程、电影、游戏、地理、历史、工业、医学、物理、政治、海报、宗教和体育。这些提示明确设计为所需信息无法通过单轮搜索获得,而需要跨网络的多步证据聚合和分析。
作为补充策略,工作将现有深度研究问答数据集中的样本转换为面向图像生成的提示。具体而言,使用Gemini 3 Pro将信息寻求问题转换为需要生成被查询实体或事件的有根据视觉描述的提示。这一策略主要贡献与一般新闻相关的提示,进一步扩展了多样化知识场景的覆盖范围。
智能体轨迹生成。给定构建的文本提示,生成智能体搜索轨迹以执行深度搜索并收集足够的证据,用于生成最终的搜索支撑提示以及与所选参考图像一起提供准确视觉特征。同时,这些轨迹也作为后续监督微调的宝贵监督数据。
具体而言,工作以多轮方式使用Gemini 3 Pro配合一组搜索工具。工具集包括search用于从网络检索文本信息、image_search用于通过文本查询搜索相关图像,以及browse用于阅读和分析检索网页的详细内容。在此过程中,智能体持续分析来自环境的文本和视觉反馈,识别有用的证据和参考图像,并相应地规划下一步行动。通过这个多轮推理和搜索过程,智能体在最终生成用于图像合成的有根据提示和一组相关参考图像之前,逐步聚合来自多个来源的信息。
真实图像合成。获得最终有根据的提示和视觉参考后,使用专有图像生成模型Nano Banana Pro合成相应图像。生成的图像作为训练搜索智能体的合成真实值。此过程产生约30K原始样本,包括提示、搜索轨迹、有根据的提示、参考图像和真实图像。
数据筛选与基准构建。为确保数据质量,进一步采用另一个强大的专有模型Seed1.8从多个角度对生成样本进行评分,包括提示是否真正需要搜索、生成内容的正确性、对提示的忠实度、视觉美学、文本渲染清晰度和安全性考虑。这些基于模型的分数与基于规则的筛选相结合,例如移除token长度过长或搜索结果不一致的提示。筛选后获得约17K高质量样本。
从这个策划的数据集中,选择630个人工验证的样本来构建一个名为KnowGen的留岀基准,该基准将在后文介绍。剩余的16K样本用于训练,并被分成两个数据集:Gen-Searcher-SFT-10k用于监督微调和Gen-Searcher-RL-6k用于智能体强化学习。工作严格确保训练数据和评估基准之间不存在重叠。
KnowGen基准
为进行评估,工作引入了KnowGen,一个旨在评估知识密集型真实场景中搜索支撑图像生成的综合基准。与主要强调提示遵循或视觉质量的传统文本到图像基准不同,KnowGen明确关注知识密集型和搜索依赖型生成场景,其中解决提示通常需要从网络检索和聚合证据。
KnowGen中的每个样本都被构建为需要非平凡的外部知识,许多样本还需要在多个来源上进行多跳搜索。为确保可靠性,所有评估样本都经过人工验证。
类别组成。为提供对不同类型搜索支撑生成任务的广泛覆盖,工作将KnowGen中的630个样本分成两个高级子集:Science & Knowledge和Pop Culture & News。Science & Knowledge子集包括以下类别:天文、生物、化学、物理、工程、医学、工业、建筑、历史、地理、宗教、政治、文化、艺术和体育。这些任务通常需要事实性世界知识、实体消歧或领域特定信息,且经常涉及必须正确视觉或文本实现的细粒度有根据细节。
Pop Culture & News子集涵盖与动漫、游戏、电影、名人、海报和一般新闻相关的提示。与第一个子集相比,这些任务更频繁地涉及快速变化的现实世界信息、流行文化实体,以及必须准确渲染的提示要求的文本或外观细节。这种两部分设计使KnowGen能够在统一基准内评估相对稳定的知识密集型场景和动态的、高更新的真实场景。如下图4所示为该基准的类别和示例概览。
评估指标。为评估KnowGen上的生成质量,工作引入了K-Score,一个旨在从多个角度评估搜索支撑图像生成的指标。采用GPT-4.1作为评估模型输出的评判者,遵循WISE基准的做法。对于每个样本,评估器接收原始文本提示、真实参考图像和模型生成图像作为输入,并从四个维度对生成结果进行评分:faithfulness(忠实度)、visual_correctness(视觉正确性)、text_accuracy(文本准确性)和aesthetics(美学)。
忠实度衡量生成图像在场景结构级别是否遵循提示,包括要求的主题、关系、设置和请求的格式。视觉正确性评估关键有根据的视觉属性相对于目标概念是否与参考图像一致且正确,如主题外观、物体特征或其他外部可验证的视觉线索。文本准确性衡量图像中任何提示要求的可读文本是否存在、清晰且正确;当提示不要求可读文本时,该维度被视为不适用且不计入平均分。美学衡量生成图像的整体视觉质量和艺术吸引力,包括构图、色彩和谐、光照等,评估图像是否呈现视觉精致和美学愉悦。
按照评估设计,每个维度使用三级离散量表
AI生成未来
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
白皮书上线