OpenCompass排名第一！腾讯微信开源POINTS1.5：面向现实应用的VLM，支持双语

模型视觉数据集 POINTS1.5 LLM

发布于 2025-07-31

546

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：OpenCompass排名第一！腾讯微信开源POINTS1.5：面向现实应用的VLM，支持双语

文章来源：

AI生成未来

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：

POINTS1.5是一款增强版视觉-语言模型，通过创新的视觉编码器、双语支持和数据集过滤策略，显著提升了模型在现实应用中的表现。

关键要点：

POINTS1.5采用NaViT风格视觉编码器，支持原生处理任意分辨率图像，避免了图像切割对空间关系的破坏。
模型增加了双语支持，通过手动与自动结合的方法，构建了中文语料库，显著提升对中文图像内容的处理能力。
通过严格的视觉指令调优数据集过滤策略，解决了数据样本语法错误及依赖图像不足的问题。
模型在多个基准测试中表现优异，特别是在数学能力和图表分析方面领先于其他开源模型。
POINTS1.5采取了高效的训练策略，在不到50亿token的数据上完成训练，其性能在OpenCompass排行榜中排名第一。

内容结构：

引子：

介绍视觉-语言模型近年来的进展及其潜力，同时指出开源模型在应对某些现实世界挑战时的不足。提出POINTS1.5作为改进方案，延续LLaVA风格架构，通过高性能视觉编码器和高质量数据集优化模型能力。

创新点：

原生动态高分辨率：采用NaViT风格视觉编码器处理任意分辨率图像，避免图像切割问题，提升性能。
双语支持：通过构建中文数据集，增强模型在中文内容处理上的能力。
视觉指令调优数据集过滤：解决数据样本语法错误及图像依赖不足问题，确保数据质量。

模型架构：

POINTS1.5延续LLaVA风格架构，包括视觉编码器、映射层和大语言模型（LLM）。采用NaViT视觉编码器处理图像序列的新方法，提供更高的灵活性和准确性。

数据集构建与训练策略：

采用创新性中文数据集构建方法，包括翻译现有对话数据和手动设计问题。
采用两步过滤策略，解决语法错误和图像依赖问题，提高数据质量。
通过预热视觉投影层优化性能，避免解冻视觉编码器带来的负面影响。

评估与结果：

POINTS1.5在多个基准测试中表现卓越，包括数学能力、图表分析和OCR能力，显著领先于其他开源模型。

结论：

POINTS1.5通过视觉编码器升级、双语支持和数据过滤策略，显著提升了模型性能，并在OpenCompass排行榜中排名第一，展示了其在现实应用中的强大能力。

文章总结：

文章详细介绍了POINTS1.5模型的创新点及其在视觉-语言任务中的显著进展，展现了该模型对现实世界应用的潜力，值得进一步关注与研究。

AI生成未来

查看原文：OpenCompass排名第一！腾讯微信开源POINTS1.5：面向现实应用的VLM，支持双语

文章来源：

AI生成未来

扫码关注公众号

相关推荐

极佳、中科院等9机构联合首发 | 3万字长文全面解析世界模型(内容生成/自动驾驶等)

1230

模型世界生成视频

击下方卡片，关注“AI生成未来”>>后台回复“GAI

大语言模型的前世今生：万字长文完整梳理所有里程碑式大语言模型（LLMs）

1619

模型训练语言 GPT

点击下方卡片，关注“AI生成未来”>>后台回复“

理解 DDD：编程中的模型思维

1086

模型业务计算机逻辑

业务设计上往往没有建立起特定的领域模型，这是我们架构腐化和软件开发困难的关键原因。**业务领域建立好的模型，并指导代码实践，这就是 ”编程思维“。** DDD 领域驱动设计就是解决这部分问题，与其叫领域驱动设计，不如叫做模型驱动设计。

具身智能成败之关键！干货长文首次全面回顾具身智能领域中的视觉-语言-动作模型！

1377

模型语言视觉机器人

点击下方卡片，关注“AI生成未来”>>后台回复“

超越CogVideoX-5B、Pika、Kling 和 Gen-3！苹果再发新作，视频生成大模型全面报告

1072

模型视频生成图像

点击下方卡片，关注“AI生成未来”后台回复“GAI”??

大模型推理必看！2025最值得读的14篇论文和2篇博客

783

模型推理论文 LLM

Datawhale干货作者：曾浩龙，Datawhale团队大模型的

AI生成未来

AIGC最新技术及资讯

323 篇文章

浏览 341.2K

还在用多套工具管项目？

一个平台搞定产品、项目、质量与效能，告别整合之苦，实现全流程闭环。

查看方案

AI生成未来的其他文章

DiT控制新纪元！"即插即控"，Tiamat AI重磅开源EasyControl：任意比例出图+推理速度狂飙

Tiamat AI 重磅开源EasyControl！DiT控制新纪元！

ECCV`24 | 高保真目标修复新SOTA！复旦&智象开源CAT-Diffusion，语义视觉双一致

点击下方卡片，关注“AI生成未来” 作者：Yifu Chen等

DALL-E 3不到50%，SDXL仅24.92%！各大SOTA文生图模型为啥这么难符合常识？

.点击下方卡片，关注“AI生成未来”>>后台回复??

点击下方卡片，关注“AI生成未来”????扫码免费加入

文本和单图如何生成无缝的360度全景图像？

与普通的2D图像不同，360度全景图像捕捉整个360°×180?

随机阅读

加入社区微信群

与行业大咖零距离交流学习

PMO实践白皮书
白皮书上线

去下载

联系我们
电话：4006 8899 23 邮箱：beining@chandao.com
融实践库
关于我们加入我们
微信号：rongpmcom
立即学习
微信公众号
微信视频号
社区微信群

友情链接：禅道项目管理软件云禅道敏捷开发喧喧IM ZDOO协同办公 ZTF自动化测试框架 ZenData测试数据生成器 ZenDAS数据分析渠成企业软件百宝箱 ZenShot开源截图工具 ZenPanel服务控制面板敏捷咨询

OpenCompass排名第一！腾讯微信开源POINTS1.5：面向现实应用的VLM，支持双语

版权声明

文章主旨：

关键要点：

内容结构：

引子：

创新点：

模型架构：

数据集构建与训练策略：

评估与结果：

结论：

文章总结：

给项目再加点儿松弛感：为什么减少流程限制更能响应变化？

还在用多套工具管项目？

联系我们

融实践库

微信公众号

微信视频号

社区微信群