率先实现VLA,小米开源Xiaomi OneVL自动驾驶模型
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
文章主旨:AI科技领域近期动态密集,聚焦于AI工具移动化、模型开源、企业级应用落地以及创业融资,标志AI正加速从云端走向物理世界与日常场景。
关键要点:
- OpenAI将Codex集成至ChatGPT移动端,支持远程代码审批与SSH连接,并推出网络安全工具Daybreak。
- 月之暗面发布Kimi WebBridge插件,使本地AI Agent能操控浏览器执行自动化任务。
- 阿里将Qoder升级为智能体自主开发工作台,引入团队知识引擎与多专家协作流水线。
- 小米开源OneVL视觉-语言模型,参数减少40%、推理速度提升2倍,多项基准最优。
- 谷歌宣布安卓版Gemini Intelligence,实现跨应用多步骤任务执行与自然语言自定义桌面组件。
内容结构:
OpenAI Codex正式登陆ChatGPT手机App
OpenAI将Codex部署至iOS和安卓移动端(预览版),免费用户可用。目前周活跃用户超400万,移动端支持远程审批代码、查bug等操作,通过安全中继保障数据不暴露公网。同时发布远程SSH功能,后续将推出CI访问令牌、Hooks以及HIPAA医疗支持,Windows版待后续。
Kimi推出WebBridge浏览器插件
月之暗面发布Kimi WebBridge扩展,使Kimi Code、Claude Code等本地AI Agent能操控浏览器(含登录态cookie),完成点击、填表、跨站信息整合等操作,不占用鼠标键盘。安装简便,可通过命令行激活守护程序;已实现自动采集多款APP素材、量化平台策略回测等场景,并可创建不消耗Token的CLI工具执行固定任务。
阿里正式发布Qoder 1.0,从AI IDE升级为智能体自主开发工作台
Qoder 1.0将对话式IDE升级为智能体自主开发工作台。核心升级包括:Quest作为独立视窗支持任务管理与审查;扩展并行能力至跨项目、跨代码库;推出团队级知识引擎(记忆、Repo Wiki、知识卡片),实测代码保留率提升11%、Token消耗降40%、对话轮次减33%;五类专家(规划、调研、编码、审查、测试)入驻Quest并支持自定义专家;底层Agent Harness重构为结构化运行时与知识工程供给。
小米开源Xiaomi OneVL自动驾驶模型
小米研究院发布OneVL视觉-语言模型,采用层级化任务编码替代传统专家混合架构。统一token序列与任务路由注意力机制使单一模型支持图像识别、目标检测、视觉问答和分割。参数减少40%,推理速度提升2倍以上,在四个基准(NAVSIM、ROADWork等)以4B参数取得最优,延迟3-5秒。双路径编码(局部+全局)经交叉注意力融合,预训练使用4500万图像-文本对,零样本迁移能力强。论文与代码已开源。
谷歌安卓Show大会,Gemini Intelligence全面接入安卓
谷歌在安卓Show大会宣布安卓史上最大更新,推出安卓版Gemini Intelligence。核心能力包括:跨App自动执行多步骤任务、Chrome集成Gemini插件(浏览与生图)、一键填表、Rambler口述转文字、自然语言自定义桌面组件。首批落地三星Galaxy和谷歌Pixel手机,后续覆盖手表、汽车、眼镜。同时发布专为Gemini设计的Googlebook笔记本,支持智能光标Magic Pointer(语音指令理解上下文跨设备操作)。与苹果合作RCS端到端加密,预告I/O大会预览智能眼镜。
前阿里Qwen负责人林俊旸创业
前阿里千问大模型技术负责人林俊旸启动创业,方向为世界模型和具身大脑。已招募字节、腾讯及海外核心成员,启动约20亿美元估值融资,接触红杉中国、高榕创投等。其2022年起主导Qwen系列研发与开源,2026年3月离开阿里,此前已在Qwen内部组建机器人团队,判断多模态基础模型应从虚拟走向物理世界。该领域已有李飞飞World Labs(估值50亿美元)等顶级研究者入局。
OpenAI砸40亿美元成立部署公司,同步推出网络安全工具Daybreak
OpenAI宣布成立OpenAI部署公司,获19家机构支持,初始投资超40亿美元,旨在将AI嵌入企业核心业务。同时收购英国AI咨询公司Tomoro(约150名部署工程师)。核心模式为派遣前沿部署工程师重新设计企业基础设施(销售、法务等),推动从模型调用到实际业务产出。此外推出网络安全工具Daybreak,整合最强模型与Codex,自动化漏洞发现、修复验证、威胁建模,目标让软件设计之初即内置防护。
中国移动发布MoMA模型服务平台与MobileClaw智能体框架
移动云大会期间,中国移动启动算力新动能行动计划,建设GW级数据中心与1500个边缘智算中心,建成三级时延圈,日调度Token百万亿级。发布国内首个开放普惠的大模型聚合平台MoMA,整合超300款AI模型(DeepSeek、豆包、GLM等);发布央企首个桌面级AI办公智能体框架MobileClaw,支持一键接入IM工具,内置超150个行业Skills,适配移动云智算一体机。
千问APP与淘宝全面打通
千问APP(6.9.1及以上版本)与淘宝实现全面打通,支持在千问内完成商品挑选、对比及下单。覆盖三类场景:多条件复杂需求(同时筛选多参数并提示性能过剩风险)、描述模糊需求(结合图片与文字推理意图)、场景化采购(生成整套商品组合)。同时具备反套路能力,可直接劝阻伪需求或智商税产品(如否定玉石床治糖尿病说法)。
文章总结:一周内AI行业呈现移动化、开源化、企业级渗透与创业者入局的综合态势,工具形态从对话式转向自主执行与物理交互,竞争格局加速演变。
啥都会一点的研究生
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
白皮书上线