新智元报道编辑:桃子很困【智元新介绍】今天是OpenAI的主场,两把凶器GPT-5.1 Pro和GPT-5.1-Codex-Max将在同一天发射。最强大的编码模型是第一个使用“压缩”机制,允许数百万代币24小时连续编程。 AI世界每日更新看不够……这两天Grok 4.1和Gemini 3 Pro发布,今天OpenAI GPT-5.1 Pro也悄然登场!没有博客文章,官方公告只有两句话。众所周知,GPT-5.1侧重于两个优势:“EQ和IQ”,Pro一定会将这两个优势发挥到更高的水平。同日,OpenAI全新王牌代码模型GPT-5.1-Codex-Max在Codex平台正式发布。从名字就很容易看出它是基于GPT-5.1,专门针对软件、工程、数学等目标领域进行训练的和研究。因此,GPT-5.1-Codex-Max 具有更强大的功能、更快的响应速度和更少的令牌。新模型是为“高强度、长期”的开发任务而设计的。换句话说,它可以连续24小时自主工作,一次处理数百万个代币,并直接输出结果。这恰恰表明缩放方法仍然具有可持续性。这是因为 GPT-5.1-Codex-Max 是 OpenAI 中第一个“原生支持压缩机制”并且可以在多种上下文中运行的模型。现在,您可以处理项目重建、深度调试和持续数小时的代理循环等任务。 GPT-5.1 Pro 目前可供所有 Pro 订阅者使用。 GPT-5.1-Codex-Max 已经支持 CLI、IDE、Cloud 和 Codex 扩展中的代码审查,API 接口即将推出。Vato 已上线。 2025年即将结束,人工智能的终极对决即将拉开帷幕。 GPT-5.1 Pro和Gemini 3 Pro谁会胜出? OpenAI最强大的编程模型GPT-5.1-Codex-Max,是在“真实战场”上开发的!所有工程师都接受过 PR 写作、代码审查、前端开发和问答等常见任务的专门培训。在多项最先进的编码评估中,它轻松超越了之前所有的 OpenAI 模型。此外,在SWE-bench Verified的评估结果中,GPT-5.1-Codex-Max取得了77.9%的高分。 GPT-5.1-Codex-Max不仅得分较高,而且在实际可用性方面也有显着提升。这是第一个在 Windows 环境中运行的 OpenAI 模型。它还针对培训期间的 Codex CLI 协作场景进行了优化,并且易于使用。 Thought Token Crash 30% 不仅如此,GPT-5.1-Codex-Max 使用起来更便宜。在相同的“medium”(中等)推理强度下,它不仅表现优于 GPT-5.1-Codex,而且还减少了思维过程中使用的 token 数量约 30%。对于延迟敏感的任务,新的“极高”(xhigh) 推理强度ity 可让您花更多时间获得高质量答案。不过,对于日常使用,OpenAI 仍然推荐 Medium。由于代币是存储的,因此在实际开发中可以大幅降低成本,这对于开发者来说是个好消息。以下演示清楚地显示了 GPT-5.1-Codex-Max 和 GPT-5.1-Codex 之间代币使用的差异。虽然令牌数量减少了,但正面设计中前者的功能和外观仍然与之前相同。例如,我们将生成一个导航应用程序(一个交互式 CartPole 强化学习沙箱),其中包括一个小型策略梯度控制器、一个指标仪表板和一个 SVG 网络查看器。上图:GPT-5.1-Codex-Max;下图:GPT-5.1-CodexGPT-5.1-Codex-Max 仅使用 27,000 个思维令牌即可完成任务,并且代码更加简化。本演示所需要做的就是为太阳系构建一个重力井沙箱。这里我们需要支持拖动和平移视图到visua描述二维引力势场内物体的运动并观察周围场景。上图:GPT-5.1-Codex-Max;下图:GPT-5.1-CodexGPT-5.1-Codex-Max 还使用更少的令牌和更复杂的代码来完成任务。 GPT-5.1-Codex-Max 如此强大的原因在于它采用了一种新机制。辛苦了一天,所有的“reduce”和“reduce”机制都让GPT-5.1-Codex-Max突破了你的极限,处理了因为上下文太长而无法完成的任务。例如,复杂的重构或长代理循环。通过自动组织历史内容并选择和保留最重要的上下文,实现随时间推移的一致性。在 Codex 中,当您接近上下文限制时,GPT-5.1-Codex-Max 会自动执行会话压缩、更新上下文,并多次重复此过程,直到任务完成。在以下情况下,GPT-5.1-Codex-Max 正在自行重建 Codex CLI 开源存储库。正如您所看到的,当上下文几乎已满时,它会自动压缩自身以释放空间,以便您可以在不丢失进度的情况下完成任务。视频经过编辑和加速,以更清晰地展示整个过程。内部测试表明,GPT-5.1-Codex-Max可以连续自主运行超过24小时。在此期间,您可以迭代您的实现,修复测试中的任何错误,并最终提供可用的结果。随着时间的推移,这种一致的任务能力对于 Mai 来说至关重要,因为我们的目标是成为更通用、更可靠的人工智能系统的共同基础。在 METR 评估中,GPT-5.1-Codex-Max 远程任务能力现已成为新的 SOTA。在 OpenAI 中,95% 的工程师每周都会使用 Codex。自实施以来,团队的拉取请求数量增加了约 70%。 GPT-5.1-Codex-Max 与不断更新的 CLI、IDE 扩展、云集成和代码审查工具相结合,可立即提高编程速度冲压效率。有网友直接尝试了一下,立刻就被惊艳到了。 GPT-5.1 Pro 已上线,首次测试将在这里进行。对于GPT-5.1 Pro,正如一开始提到的,OpenAI在版本更新日志中只写了两段介绍性的内容。虽然官方没有单独开设博客,但提前获得内测资格的大佬们都非常兴奋地第一时间发布了自己的经历和感受。对于GPT-5.1迭代后的性能,Epoch AI的第三方评测发现其与GPT-5的性能几乎相同。在高推理模式(高)下,两者的 ECI 分数均为 151。人类免疫学家、杰克逊实验室教授 Deliya Unutmaz 表示,GPT-5.0 Pro 现在是她最喜欢的模型,因为与之前的模型相比,它的性能有了显着提升。在下面的示例中,您分别向 5.0 和 5.1 Pro 询问了以下最重要的未回答问题:免疫学领域,并要求两个模型将每个问题分解为简单的术语,以便即使没有免疫学学位的人也能理解其重要性。前两个答案来自 GPT-5.1 Pro,接下来的两个简短答案来自 GPT-5.0。正如您所看到的,GPT-5.1 Pro 显然更好,即使对于那些没有免疫学背景的人来说,这些解释也更容易理解,并清楚地展示了这些主题的重要性和潜在价值。相比之下,GPT-5.1 Pro 在清晰度和洞察力方面提供了质的改进。答案保留了深度,同时更加完整、一致、清晰和易于理解。然而GPT-5.0的反应同样不错,还没有得到很好的分析。 GPT-5.1 Pro GPT-5.0 HyperWrite AI 的 CEO Matt Shumer 在一份很长的体验报告中也表示:GPT-5.1 Pro 速度慢,但考虑周全,是目前最好的“大脑”。对于大多数日常任务来说,Gemini 3 更好。毕竟,在独立界面上等待 10 分钟才能得到响应显然并不理想。但对于需要深入思考、规划和研究的任务,或者需要一次就完成的任务,GPT-5.1 Pro 更好。长文地址:https://shumer.dev/gpt51proreview 响应缓慢,却出奇的聪明。除了比大多数产品更好之外,该课程在解决真正困难的问题时比任何其他模型都更擅长推理并且更聪明。我们期望在未来几天看到解决被认为超出当前人工智能系统能力的问题的示例。最重要的特征是能够遵循指示。严格执行要求,不得有偏差。对于严肃的编码工作,您会感觉不太像“向导”,而更像是按规范工作的工程师/外包工人(即使这些规范有些模糊)。用户体验和前端设计和写作是薄弱环节。无论是cre主动写作或设计漂亮的用户界面,Gemini 3 更好。然而,最大的弱点是界面。它只能与 ChatGPT 一起使用,不能集成到 IDE 中或连接到其他工具链。这与 GPT-5 Pro 完全相同。参考:https://x.com/OpenAI/status/1991266192905179613?s=20https://x.com/OpenAIDevs/status/1991217488550359066?s= 20秒关注ASI ⭐一键3个 可以“点赞”、“继续”看时间⭐点亮星星锁定快推新品智慧!
特别提示:以上内容(包括图片、视频,如适用)由自有媒体平台“网易号”用户上传发布。本平台仅提供存储服务。信息存储。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。

admin

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注