Gemini 3.1 Pro 正式发布：ARC-AGI-2 得分翻倍，谷歌推理能力的真实跃升？

2026年2月23日 · WaymoChang

核心摘要

谷歌 2026 年 2 月 19 日发布 Gemini 3.1 Pro，在 ARC-AGI-2 基准测试中达到 77.1%——是前代 3 Pro 的两倍以上。本文解析这次发布的技术意义、Antigravity 平台战略与开发者应关注的实际影响。

【版权说明】本文为中文深度解读与观点整理，不是原文逐字翻译。原始信息来源为谷歌官方博客及 The Verge 报道。

原文链接：https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

一、发布概要

2026 年 2 月 19 日，Google 发布 Gemini 3.1 Pro，这是继 Gemini 3 Deep Think（面向科研/工程重度推理）之后，面向主流产品线的新一代基础推理模型。它同时面向消费者（Gemini App、NotebookLM）、开发者（Google AI Studio、Gemini CLI、Google Antigravity 平台）和企业（Vertex AI、Gemini Enterprise）三端同步上线。

二、核心数据：ARC-AGI-2 得分 77.1%

ARC-AGI-2 是 Francois Chollet 设计的通用推理能力基准，专门测试模型在从未见过的新逻辑模式中的表现——即排除记忆和数据污染影响的纯推理能力。Gemini 3.1 Pro 在该基准上得分 77.1%，官方声称是 Gemini 3 Pro 的两倍以上。

需要放入以下背景理解：ARC-AGI-2 的人类基线约为 85%，77.1% 意味着已接近但未超越普通人的表现。该测试本身有被过度训练的风险，需要第三方独立验证。

三、为什么推理能力提升是当前 AI 竞争的核心战场？

当前各大厂商（OpenAI o3/o4、Anthropic Claude 3.7、DeepSeek R2、Google Gemini）的竞争已从语言流畅度转移到推理深度。原因在于：1) 通用对话能力已趋同，用户用不同模型获得的基本对话体验差距缩小。2) 推理能力的提升直接决定模型能否替代高价值知识工作（法律分析、代码审计、科学推导）。3) Agent 自主任务执行场景下，推理链的稳定性是核心瓶颈。

四、Google Antigravity：从模型到平台的野心

此次发布特别值得注意的是 Google Antigravity——谷歌的 Agentic 开发平台——作为 3.1 Pro 的重要接入渠道之一。Antigravity 是谷歌对标 OpenAI Agents SDK 和 Anthropic Claude for Enterprises 的布局：让开发者直接在谷歌基础设施上构建 AI Agent 产品，形成生态锁定。3.1 Pro 的发布让 Antigravity 平台有了更强的底层推理支撑，这对谷歌在企业 AI Agent 市场的竞争力是实质性增强。然而，近期有报道指出 Google 正以违反 ToS 为由限制通过第三方 OAuth 工具访问 Antigravity/Gemini API 的付费用户账号——这一平台管控动向值得开发者持续关注。

五、对开发者和企业的实际影响

代码动画（SVG 生成）、数据综合分析、复杂问题的可视化解释是谷歌官方重点提及的三类改进场景。Vertex AI 接入意味着 GCP 客户可以无缝集成；推理改进对 RAG（检索增强生成）流程中的推理步骤有直接提升价值；多模态能力（图像、代码、文字综合处理）在 3.1 Pro 中继续增强。

六、一点保留性观察

77.1% 的 ARC-AGI-2 得分令人印象深刻，但 AI 基准测试行业整体存在发布即最优、独立验证后打折的规律。建议在第三方评测（如 LMSYS Chatbot Arena、Scale AI 等）对 3.1 Pro 完成独立评估后，再做最终判断。近期 Gemini Pro API 用户的 429 错误频发（一项分析显示 6k 请求中有 23% 被限速），也提示谷歌的产能管理机制仍有待改善。