ECCV`24 | 艺术文本和场景文本分割任务新SOTA 方法!华科&Adobe提出WAS!
发布于 2024-10-22
1046
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
AI生成未来
扫码关注公众号
扫码阅读
手机扫码阅读
亮点摘要
- 提出了艺术文本分割任务,并构建了一个真实数据集用于基准测试。
- 设计了训练数据合成策略,生成了包含10万对图像-mask的合成数据集。
- 引入了逐层动量查询机制和骨架辅助头,以应对局部笔画变化和全局结构复杂性。
- 在艺术文本分割和场景文本分割任务中取得了最先进(SOTA)的成果,简化了实验范式。
数据集概述
提出了两个艺术文本数据集,WAS-R由真实世界文本图像组成,WAS-S由合成文本图像组成。WAS-R包含7,100张图像,并提供了详细的标注,包括最小四边形检测框、文本转录及文本效果。WAS-S合成数据集使用文本图像生成模型、Monkey语言模型和GPT-4配合 Mask Render技术生成。
方法介绍
WASNet模型基于Mask2Former架构,增加骨架辅助头和逐层动量查询改进了Transformer解码器。引入了mask注意力机制和逐层动量查询来应对艺术文本的局部笔画多样性。骨架辅助头提取对象中心轴,帮助捕捉文本全局结构。
实验结果
WASNet在WAS-R数据集上表现优越,超越了其他语义分割和文本分割模型。也在公开的场景文本分割数据集上验证了模型的泛化能力,取得了竞争力或最先进的结果。消融研究表明,提出的模块和合成数据集有效提升了性能。
结论与展望
本文聚焦于艺术文本分割任务,提出了真实和合成数据集,并通过引入逐层动量查询和骨架辅助头,显著提升了艺术文本分割的性能和泛化能力。期望未来有更多研究关注这一任务,改变文本分割的实验范式。
AI生成未来
AI生成未来
扫码关注公众号
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
AI生成未来的其他文章
大语言模型都有哪些特质?区分度达97%!DeepSeek&ChatGPT&Claude&Grok&Gemini
点击下方卡片,关注“AI生成未来”
后台回复“GAI”?
ECCV`24 | 高保真目标修复新SOTA!复旦&智象开源CAT-Diffusion,语义视觉双一致
点击下方卡片,关注“AI生成未来”
作者:Yifu Chen等
弥补2D拖拽缺陷!南大&蚂蚁等重磅开源LeviTor:首次引入3D目标轨迹控制,效果惊艳
点击下方卡片,关注“AI生成未来”后台回复“GAI”??
VLM训练成本降4.5倍!8B参数媲美GPT-4o mini | 英伟达&MIT等发布NVILA:前沿高效
点击下方卡片,关注“AI生成未来”后台回复“GAI”??
CVPR 2025 | AI眼镜颠覆生活!EgoLife黑科技:300小时真人实录打造你的全天候智能管家
点击下方卡片,关注“AI生成未来”如您有工作需要??
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线