率先实现VLA，小米开源Xiaomi OneVL自动驾驶模型

AI 模型 https Codex mp.weixin.qq.com

发布于 2026-06-13

160

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：率先实现VLA，小米开源Xiaomi OneVL自动驾驶模型

文章来源：

啥都会一点的研究生

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：AI科技领域近期动态密集，聚焦于AI工具移动化、模型开源、企业级应用落地以及创业融资，标志AI正加速从云端走向物理世界与日常场景。

关键要点：

OpenAI将Codex集成至ChatGPT移动端，支持远程代码审批与SSH连接，并推出网络安全工具Daybreak。
月之暗面发布Kimi WebBridge插件，使本地AI Agent能操控浏览器执行自动化任务。
阿里将Qoder升级为智能体自主开发工作台，引入团队知识引擎与多专家协作流水线。
小米开源OneVL视觉-语言模型，参数减少40%、推理速度提升2倍，多项基准最优。
谷歌宣布安卓版Gemini Intelligence，实现跨应用多步骤任务执行与自然语言自定义桌面组件。

内容结构：

OpenAI Codex正式登陆ChatGPT手机App

OpenAI将Codex部署至iOS和安卓移动端（预览版），免费用户可用。目前周活跃用户超400万，移动端支持远程审批代码、查bug等操作，通过安全中继保障数据不暴露公网。同时发布远程SSH功能，后续将推出CI访问令牌、Hooks以及HIPAA医疗支持，Windows版待后续。

Kimi推出WebBridge浏览器插件

月之暗面发布Kimi WebBridge扩展，使Kimi Code、Claude Code等本地AI Agent能操控浏览器（含登录态cookie），完成点击、填表、跨站信息整合等操作，不占用鼠标键盘。安装简便，可通过命令行激活守护程序；已实现自动采集多款APP素材、量化平台策略回测等场景，并可创建不消耗Token的CLI工具执行固定任务。

阿里正式发布Qoder 1.0，从AI IDE升级为智能体自主开发工作台

Qoder 1.0将对话式IDE升级为智能体自主开发工作台。核心升级包括：Quest作为独立视窗支持任务管理与审查；扩展并行能力至跨项目、跨代码库；推出团队级知识引擎（记忆、Repo Wiki、知识卡片），实测代码保留率提升11%、Token消耗降40%、对话轮次减33%；五类专家（规划、调研、编码、审查、测试）入驻Quest并支持自定义专家；底层Agent Harness重构为结构化运行时与知识工程供给。

小米开源Xiaomi OneVL自动驾驶模型

小米研究院发布OneVL视觉-语言模型，采用层级化任务编码替代传统专家混合架构。统一token序列与任务路由注意力机制使单一模型支持图像识别、目标检测、视觉问答和分割。参数减少40%，推理速度提升2倍以上，在四个基准（NAVSIM、ROADWork等）以4B参数取得最优，延迟3-5秒。双路径编码（局部+全局）经交叉注意力融合，预训练使用4500万图像-文本对，零样本迁移能力强。论文与代码已开源。

谷歌安卓Show大会，Gemini Intelligence全面接入安卓

谷歌在安卓Show大会宣布安卓史上最大更新，推出安卓版Gemini Intelligence。核心能力包括：跨App自动执行多步骤任务、Chrome集成Gemini插件（浏览与生图）、一键填表、Rambler口述转文字、自然语言自定义桌面组件。首批落地三星Galaxy和谷歌Pixel手机，后续覆盖手表、汽车、眼镜。同时发布专为Gemini设计的Googlebook笔记本，支持智能光标Magic Pointer（语音指令理解上下文跨设备操作）。与苹果合作RCS端到端加密，预告I/O大会预览智能眼镜。

前阿里Qwen负责人林俊旸创业

前阿里千问大模型技术负责人林俊旸启动创业，方向为世界模型和具身大脑。已招募字节、腾讯及海外核心成员，启动约20亿美元估值融资，接触红杉中国、高榕创投等。其2022年起主导Qwen系列研发与开源，2026年3月离开阿里，此前已在Qwen内部组建机器人团队，判断多模态基础模型应从虚拟走向物理世界。该领域已有李飞飞World Labs（估值50亿美元）等顶级研究者入局。

OpenAI砸40亿美元成立部署公司，同步推出网络安全工具Daybreak

OpenAI宣布成立OpenAI部署公司，获19家机构支持，初始投资超40亿美元，旨在将AI嵌入企业核心业务。同时收购英国AI咨询公司Tomoro（约150名部署工程师）。核心模式为派遣前沿部署工程师重新设计企业基础设施（销售、法务等），推动从模型调用到实际业务产出。此外推出网络安全工具Daybreak，整合最强模型与Codex，自动化漏洞发现、修复验证、威胁建模，目标让软件设计之初即内置防护。

中国移动发布MoMA模型服务平台与MobileClaw智能体框架

移动云大会期间，中国移动启动算力新动能行动计划，建设GW级数据中心与1500个边缘智算中心，建成三级时延圈，日调度Token百万亿级。发布国内首个开放普惠的大模型聚合平台MoMA，整合超300款AI模型（DeepSeek、豆包、GLM等）；发布央企首个桌面级AI办公智能体框架MobileClaw，支持一键接入IM工具，内置超150个行业Skills，适配移动云智算一体机。

千问APP与淘宝全面打通

千问APP（6.9.1及以上版本）与淘宝实现全面打通，支持在千问内完成商品挑选、对比及下单。覆盖三类场景：多条件复杂需求（同时筛选多参数并提示性能过剩风险）、描述模糊需求（结合图片与文字推理意图）、场景化采购（生成整套商品组合）。同时具备反套路能力，可直接劝阻伪需求或智商税产品（如否定玉石床治糖尿病说法）。

文章总结：一周内AI行业呈现移动化、开源化、企业级渗透与创业者入局的综合态势，工具形态从对话式转向自主执行与物理交互，竞争格局加速演变。