← 返回列表

Blog 详情

Gemini 3.1 Pro 正式发布:ARC-AGI-2 得分翻倍,谷歌推理能力的真实跃升?

2026年2月23日 · WaymoChang

核心摘要

谷歌 2026 年 2 月 19 日发布 Gemini 3.1 Pro,在 ARC-AGI-2 基准测试中达到 77.1%——是前代 3 Pro 的两倍以上。本文解析这次发布的技术意义、Antigravity 平台战略与开发者应关注的实际影响。

【版权说明】本文为中文深度解读与观点整理,不是原文逐字翻译。原始信息来源为谷歌官方博客及 The Verge 报道。

原文链接https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

一、发布概要

2026 年 2 月 19 日,Google 发布 Gemini 3.1 Pro,这是继 Gemini 3 Deep Think(面向科研/工程重度推理)之后,面向主流产品线的新一代基础推理模型。它同时面向消费者(Gemini App、NotebookLM)、开发者(Google AI Studio、Gemini CLI、Google Antigravity 平台)和企业(Vertex AI、Gemini Enterprise)三端同步上线。

二、核心数据:ARC-AGI-2 得分 77.1%

ARC-AGI-2 是 Francois Chollet 设计的通用推理能力基准,专门测试模型在从未见过的新逻辑模式中的表现——即排除记忆和数据污染影响的纯推理能力。Gemini 3.1 Pro 在该基准上得分 77.1%,官方声称是 Gemini 3 Pro 的两倍以上。

需要放入以下背景理解:ARC-AGI-2 的人类基线约为 85%,77.1% 意味着已接近但未超越普通人的表现。该测试本身有被过度训练的风险,需要第三方独立验证。

三、为什么推理能力提升是当前 AI 竞争的核心战场?

当前各大厂商(OpenAI o3/o4、Anthropic Claude 3.7、DeepSeek R2、Google Gemini)的竞争已从语言流畅度转移到推理深度。原因在于:1) 通用对话能力已趋同,用户用不同模型获得的基本对话体验差距缩小。2) 推理能力的提升直接决定模型能否替代高价值知识工作(法律分析、代码审计、科学推导)。3) Agent 自主任务执行场景下,推理链的稳定性是核心瓶颈。

四、Google Antigravity:从模型到平台的野心

此次发布特别值得注意的是 Google Antigravity——谷歌的 Agentic 开发平台——作为 3.1 Pro 的重要接入渠道之一。Antigravity 是谷歌对标 OpenAI Agents SDK 和 Anthropic Claude for Enterprises 的布局:让开发者直接在谷歌基础设施上构建 AI Agent 产品,形成生态锁定。3.1 Pro 的发布让 Antigravity 平台有了更强的底层推理支撑,这对谷歌在企业 AI Agent 市场的竞争力是实质性增强。然而,近期有报道指出 Google 正以违反 ToS 为由限制通过第三方 OAuth 工具访问 Antigravity/Gemini API 的付费用户账号——这一平台管控动向值得开发者持续关注。

五、对开发者和企业的实际影响

代码动画(SVG 生成)、数据综合分析、复杂问题的可视化解释是谷歌官方重点提及的三类改进场景。Vertex AI 接入意味着 GCP 客户可以无缝集成;推理改进对 RAG(检索增强生成)流程中的推理步骤有直接提升价值;多模态能力(图像、代码、文字综合处理)在 3.1 Pro 中继续增强。

六、一点保留性观察

77.1% 的 ARC-AGI-2 得分令人印象深刻,但 AI 基准测试行业整体存在发布即最优、独立验证后打折的规律。建议在第三方评测(如 LMSYS Chatbot Arena、Scale AI 等)对 3.1 Pro 完成独立评估后,再做最终判断。近期 Gemini Pro API 用户的 429 错误频发(一项分析显示 6k 请求中有 23% 被限速),也提示谷歌的产能管理机制仍有待改善。