帮大家总结了一下凌晨的Google I/O 2026开发者大会。

Google AI Gemini Agent 。。。
发布于 2026-06-12
1

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读
一. AI模型
1. Gemini 3.5 Flash

今年I/O大会的明星之一,Gemini 3.5 Flash。

一般来说,Flash系列是轻量快速版,主打便宜和快,Pro才是满血旗舰版。

但现在基本上都流行,新一代的小模型,要比上一代的大模型还要强,所以这次也是一样,3.5 Flash的能力在编码能力、Agent能力、工具调用能力都比上一代的3.1 Pro要强不少。

Terminal-Bench 2.1编码测试,3.5 Flash拿了76.2%,3.1 Pro只有70.3%。GDPval-AA,衡量真实世界经济价值任务的,3.5 Flash 1656 Elo,3.1 Pro 1314 Elo,差了三百多分。

跑分上确实强了不少。

不过呢,3.5 Flash在Humanity's Last Exam(人类最后考试)上40.2%,比3.1 Pro的44.4%差,ARC-AGI-2上72.1%也输给Pro的77.1%。

这两个benchmark主要考的是世界知识和纯抽象推理。

也就是说,这次也是牺牲了知识的能力,换来了干活的能力的加强。

输出速度方面,比其他前沿模型快4倍。

价格这块,输入$1.50/百万token,输出$9.00/百万token,比3 Flash贵了3倍,但比3.1 Pro便宜40%。

现在真的全网token提价真的是大势所趋。。。

然后知识截止日期到2025年1月(感觉拉了个大的),上下文窗口100万token。

至于Gemini 3.5 Pro,他们亲口说的是“Give us until next month to get it to you”,也就是下个月见。

3.5 Flash今天直接成为Gemini App和AI Mode in Search的默认模型,全球同步上线API、AI Studio、Antigravity等等,所有人也都可以去体验了。

2. Gemini Omini Flash

Gemini Omni,这个东西其实发布会之前就已经在推特上炒疯了。

说真的,其实是有点期待的。

毕竟,谷歌把这玩意称为“a new model that can create anything from any input”,也就是能根据任何输入创造出任何东西的全新模型。

而且现在Google的视频模型,已经被大家认为唯一一个能勉强跟Seedance 2.0打一打的模型了,也是很多AI漫剧公司最后的希望。

在宣发上,看着效果感觉还行。

目前也已经上线了,但是吧,我体验了一下,只能说,有点拉了。

就真的有一点不太行,而且中文的口音,一股港台腔,真的怪怪的。

看到一个评论说。

emmmm。

别说看起来了,用起来也不如Seedance啊。。。

不过有一个功能值得一提,就是它支持保持视频中某一个片段不变,只修改其他部分。

不过今天发布的Gemini Omni Flash,拉一点感觉也能理解,毕竟是Omni家族的第一个模型,google也明确说了,Omni Pro即将发布。


二. Gemini产品

1. Gemini App 全新设计

Gemini App的设计语言,正式名字叫Neural Expressive。

一打开网页端,整体配色,从之前那个灰白色的界面,换成了一个蓝色渐变的背景。

第一眼会觉得挺高级的,但也有点像。。。手机省电模式?

手机端也是。

工具栏做了一个合并,之前上传文件、调用工具、选附件是分散在不同地方的,现在全塞进了一个+号里。

点开模型选择器,底下有一个思维水平的选项,展开以后有标准和扩展两项。

最让我没想到的是设置里,Google也开始整限额了。。。

打开设置一看,好家伙,两个进度条,一个当前使用情况,一个每周限额。

不学Claude好的方面,净学这方面。。。

目前,新设计Neural Expressive今天起在Android、iOS、Web全球上线。

2. Ask Maps

Google Maps来了一个十年最大升级,加了个叫Ask Mapx的功能。

你现在,可以直接用自然语言跟地图对话。

现场举了个例子,有家长真的问了这么一个问题:“我家孩子刚掉进鸭子池塘,婚礼30分钟后就开始了,我能走着去哪里给她买件新裙子?”

这种问题你以前在搜索框里根本没法打,现在可以了。

Google的生态还是太猛了,把地图这种东西,接到了Gemini里,还是能产生一些化学反应的。

3. Ask YouTube

YouTube也搞了一个类似的东西,叫Ask YouTube。

你也不用再自己翻视频了,直接问它“怎么教三岁小孩骑自行车,他已经会骑平衡车了”,它会给你一个整理好的概览、小贴士、最相关的视频片段,甚至直接跳到视频里最对口的那一段。

还能追问,它记得上下文。

跟上面那个功能其实思路是一样的,把搜索框变成对话框,不管是地图还是视频。

Ask YouTube现在在美国对Premium订阅者开放,今年夏天全美推广。

4. Docs live

之前你想让Gemini帮你写个文档,得敲一段很精准的prompt,想清楚了再打字。

然后Docs Live的思路是,你不用打字了,直接说话就行。

脑子里想到什么就说什么,说乱了也没关系,Gemini自己整理。

现场他们搞了个演示,一个工程师要给高中母校的职业日做分享,他就对着Gemini一顿说,“把我简历从Drive里调出来”“想几个搞笑的类比”“哦对把学校发的那封邮件里的时间地点也抓出来”“做成表格”“在最前面加个备注让我别忘了讲我哥的故事,加粗”。

全程没打一个字,就是一直一边想一边说,说完文档就直接出来了。

非常的丝滑。

最有意思的是中途改主意,比如他说Thursday,然后立刻改口说Friday,Gemini就会自动把Thursday抹掉换成Friday,这个还挺好的。

今年夏天对Pro和Ultra订阅者开放。Gmail Live和Google Keep的Live模式后面也会接入。

5. Gemini Live升级

Gemini Live的语音更新。

现场放了几段,利物浦腔的英语、印度哈里亚纳方言、巴西里约葡萄牙语。。。

三个口音切来切去玩了一段。

接下来几周会陆续上线更多。

6. Daily Brief

这是Gemini App里一个新功能,每天早上给你一份个性化摘要。

它会自己翻你的邮箱、日历、任务清单,挑出今天最重要的事情,按主题分好类,甚至建议你下一步该做什么,比如提醒你还书、出行时间之类的。

今天起面向美国的Plus、Pro、Ultra用户开放。

7. NotebookLM

功能上增加了电影级视频概览,你丢一堆资料进去,它能直接生成一段带流畅动画和视觉效果的讲解视频。

信息图也升级了,现在有10种预设风格可选,手绘风、可爱风、专业风、科学风、动漫风、黏土风。。。

学习工具这块,闪卡和测验都改了,进度会跨设备保存。

最大的变化是,NotebookLM跟Gemini App打通了。Gemini里现在有一个笔记本功能,你在 Gemini里创建的笔记本会自动同步到NotebookLM,反过来也一样。

还支持上传EPUB电子书了,幻灯片可以导出PPTX格式,聊天记录自动保存,可以在对话里直接生成播客、视频、报告。

另外NotebookLM也进了Google Classroom,大学生可以在课堂里直接创建自己的课程笔记本,用老师提供的资料生成学习工具。


三.  Agent系统

Agent今年是Google整场发布会的真主线。

1. Antigravity2.0

先讲Antigravity2.0。

Antigravity是Google的之前的开发平台,但是真的难用,而且完全没啥更新,去年11月才发布的,当时发了之后我们每天干的最多的事,就是把Antigravity的Claude额度给反代出来给OpenCode用,后面开始封号,我基本也就没咋用过了。

今天,终于版本来到了2.0。

更新内容有几个。

第一,全新独立桌面应用。这跟之前是个IDE插件不一样了,是个真正的Agent工作环境了。

第二,Antigravity CLI上线,全球可用

这其实就是直接把Gemini CLI给替代了。

Google官方公告,2026年6月18日之后,Gemini CLI和Gemini Code Assist IDE扩展会停止对Pro/Ultra用户服务。

开发者要全部迁到Antigravity CLI。

这条信息对所有用Gemini CLI开发的人都注意一下(虽然我估计可能没有),别到6月18号才发现自己的工作流挂了。

三,Antigravity SDK,开发者可以把Google用在Antigravity里的agent harness,直接拿到自己的服务器上跑。

第四,原生语音支持,整合Gemini音频模型,跟Android、Firebase、AI Studio都打通了。

然后他们现场演示了一下,让Antigravity配合Gemini 3.5 Flash,从零构建一个可运行的操作系统。

93个subagent并行跑,12个小时,1.5万次模型请求,处理26亿token,总成本不到$1000。

还真搞了个OS出来,能跑命令行,能跑doom游戏,可以放动画。

还挺有意思的。

更骚的是3.5 Flash在Antigravity里被专门优化过,跟别的模型相比,不是4倍快,是12倍快了。。

Antigravity 2.0全球开放,所有人今天都能用。

2. Gemini Spark

接下来是Gemini Spark。

你的个人AI Agent,感觉是对标了OpenClaw。

它跑在Google Cloud的专属虚拟机上,24/7不间断,你可以关掉你的电脑,Spark也会在云端继续干活。

由Gemini 3.5 Flash和Antigravity harness驱动,可以处理长链路后台任务。

也直接打通了Google 全家桶,帮你打理各种事。

比如,在工作中让Spark帮团队写一封邮件,汇总最近一周Gemini Live的发布和成绩等等。

Spark会自己去翻你的Docs、邮件、聊天记录,把最重要的信息抓出来,然后按照你预设的写作风格起草邮件。

或者是在生活中,筹备一场街区派对。

Spark在Google Sheets里生成实时RSVP追踪表,自动跟Gmail打通,邻居回复一句“我来”表格就会自动更新,没回复的邻居它自己会生成催回复的邮件草稿。

然后又从Google Drive里翻出了小区HOA的章程,提醒你周五下午之前不能布置充气城堡,还在Google Slides里做了一份派对宣传deck。。。

目前,Spark本周对一些测试人员开放,下周开始对美国Google AI Ultra订阅者开放Beta测试。

注意,是Ultra订阅者,不是Pro,不过说真的,这年头谁家好人会没事给Google冲250刀的Ultra会员啊,过于大冤种了。

所以呢,伴随着Spark发布的,是Google整个订阅价格体系的重新洗牌。

Google AI Ultra之前只有一档,$250一个月,这次拆成两档。

新的$100/月Ultra plan,给开发者、技术lead、内容创作者准备,5倍于Pro的用量、20TB云存储、YouTube Premium、优先用Antigravity。

老的Ultra plan从$250降到$200/月,保留所有顶配能力。

Spark在$100和$200两档都可以用。

按我意思来说,Google你的价格其实还得再降降才行。

3. Android Halo

Spark在云端24/7干活,但你怎么看它在干啥呢。

答案是Android Halo。

Halo是Android上一个专门给Agent准备的home base,会在状态栏顶部显示Agent正在干什么。

Spark做什么、做到哪一步、要不要你确认,都在这条状态栏里。

今年晚些时候上线。

Halo其实被带过的比较快,但是我觉得还挺有意思的,可能会是一个新的UI层级。

过去的Android UI都是给App用的,App是底层逻辑。

Halo开始的Android,是给Agent用的,Agent是底层逻辑。

可能未来会诞生很多新的玩法。


四. 视觉生成

1. Google Pics

Workspace里的新产品,Google Pics

数字生命卡兹克