GPT-5新品发布会回顾：性价比之选、编程能力引人注目，新增功能亮点不多-春天资源分享网

8月8日凌晨，全球关注的焦点转向了GPT-5的亮相，这一时刻距离GPT-4的推出已有两年半。尽管与ChatGPT的惊艳首演、GPT-4的显著进步以及o1的轰动效应相比，GPT-5的发布会显得相对平淡。Benchmark的表现不够突出，缺乏创新的新模式，展示的应用案例难以激起兴趣，甚至在PPT中出现了错误，这些因素共同构成了这场持续1小时20分钟的发布会。

尽管如此，GPT-5并非没有进步。它极低的幻觉率、前端能力的增强、上下文理解能力的显著提升，以及极具竞争力的价格，都是此次发布会的亮点。特别是在价格方面，GPT-5凭借其卓越的编程能力，其API价格仅为昨日发布的Claude Opus 4.1的1/15，甚至低于Gemini 2.5 Pro。这对Anthropic来说无疑是一记重击。

尽管OpenAI在今晚失去了昔日的神秘感，但它在与其他厂商的竞争中依然稳固了自己的地位。

GPT-5本体：有限的升级，微小的SOTA提升

GPT-5共有四个版本，包括GPT-5、GPT-5 mini、GPT-5 nano，以及仅面向企业用户和每月支付200美元的高级用户开放的GPT-5 Pro模式。普通用户默认使用的是综合的GPT-5模型，该模型由多个模型构成，如处理大多数问题的“智能且快速”模型（gpt-5-main）和解决更复杂问题的“更深层推理”模型（gpt-5-thinking）。这种统一的设计通过实时路由器来决定针对特定查询使用哪个模型。

mini和nano版本由API用户自行选择，而GPT-5 Pro模式则类似于Grok 4的Hard模式，采用并行测试计算，一次并行多个模型进行更长时间的运算。它利用更大的算力，提供了最全面、最精确的答案。在超高难度的科学问题（GPQA）上，GPT-5刷新了世界纪录。在与人类专家的“盲测”中，近7次被认为优于人类。

在能力和评分上，GPT-5在几乎所有方面都有所提升，但与当前SOTA相比，提升幅度有限，与o3相比也仅有微小的优势。

智力水平：体验最佳，但非智力最佳

在智力水平上，GPT-5在各种主流评测集中均优于o3，但整体差距并不大。

通过对这些领先数学测试集的详细结果进行剖析，我们发现GPT-5的得分并未超越ChatGPT Agent。事实上，只有在激活Pro模式的情况下，GPT-5的表现才实现了显著进步。

在对比GPT-5与其他模型时，我们发现该模型在多数“智力”测试中仅略胜一筹，部分技能甚至未能达到现有最佳水平（SOTA）。总体来看，GPT-5仅以微弱的优势领先。因此，我们难以断定其实现了显著或突破性的能力进步。

总体来看，Artificial Analysis的评估数据表明，GPT-5目前处于领先地位，但其总分仅领先o3两分，且与Grok 4的差距仅为一分。

在Arc Prize的挑战赛里，GPT-5的表现未能达到预定的标准，尤其是在这场被视为通用人工智能（AGI）最终检验的竞赛中，它未能超越Grok 4，且差距显著。

尽管如此，我们也注意到，GPT-5在计算效率上相较于o3确实取得了进步，它以更少的token用量就能实现比o3更优的效果，并且其效率也超过了Anthropic的模型。

OpenAI对这一现象作出了解释，指出GPT-5在解决复杂问题时，其所需的token数量可以减少50%-80%。

马斯克对此感到异常兴奋，频繁在社交媒体上热情地发布推文。最近，Grok在AI国际象棋比赛中大放异彩，成功战胜了OpenAI，看来在这次发布会之后，Grok无疑成为了最大的赢家。

尽管如此，GPT-5在用户体验方面实现了显著的进步。

在LMArena这个以进行用户双盲对比不同模型性能著称的排行榜上，GPT-5在所有测试任务中均取得了第一名的好成绩。

在本次会议中，OpenAI重点介绍了其在编程领域的最新进展。GPT-5在“思考”模式下的性能相比以往版本有了显著提升，极大地简化了编程过程，有效缓解了编程中的难点问题。

尽管持续将Anthropic近期发布的Claude 4.1 Opus作为对比对象，但其在性能上的优势仍然微乎其微，仅相差0.3%。

尽管GPT-5在编程基准测试中并不突出，OpenAI却在编程的实际应用中进行了多项优化。在发布会上，该公司详细介绍了编程体验的几项重要提升，这些优化主要集中在理解编程需求、错误修正以及工具的广泛应用上。

这些提升主要归功于较为成熟的智能体式编码系统。GPT-5在执行智能体式编码任务时表现出色，能够运用多种工具，并能持续工作数分钟甚至更长时间以完成复杂指令。在编码过程中，该模型还能主动沟通，阐述其计划、步骤和发现，仿佛是一个协作团队。

为了实现这种类似协作伙伴的行为，OpenAI团队对模型进行了针对性的调整，着重强化以下特性：自主性、协作与沟通以及测试。

GPT-5在理解编程需求和遵循指令方面的改进，使其能将模糊或详细的指令转化为实际可执行的代码，从而帮助非编程人士实现他们的创意。

一些用户在推特上发表了相应的反馈。

经过OpenAI的细致调整，工具调用功能得到了显著提升。这一进步在Tau测试集中表现得尤为明显。Tau测试集设计用于评估AI模型在模拟真实世界场景中与用户进行互动对话，并高效使用外部工具（如API或函数调用）完成任务的能力。尤其在电信领域，这一模型的能力提升尤为显著。

一项重要更新集中在“漏洞修复”功能的显著强化上。

在演示中，GPT-5展现了其深入分析真实代码库（如OpenAI的Python SDK）的能力，通过搜索和读取文件来理解代码的架构与逻辑，并最终定位问题的核心。该模型甚至能洞察人类工程师在架构决策背后的深层动机，例如出于提升安全性的考虑。

此外，GPT-5还具备自动修复自身漏洞的能力。在一次前端应用开发任务的展示中，GPT-5在完成代码编写后，会自动尝试构建项目。在构建过程中遇到错误时，它能接收错误信息并自我反馈，然后基于这些信息对代码进行修改和迭代。OpenAI的演示人员将这一过程描述为“一个具有里程碑意义的时刻”和“自我优化的循环”。

在解决特定漏洞时，该模型还表现出了卓越的智能水平。例如，在代码审查过程中，它能够识别出其他问题，但又能准确判断这些问题与当前要修复的漏洞无关，从而避免了不必要的工作。

这一点在当前的开发环境中尤为重要。今年的一项研究表明，一个看似反直觉的现象：使用AI辅助编程可能会降低工作效率，而非提升。这主要是由于程序员日常处理的是旧代码的迭代，而非全新项目。

因此，如果没有对复杂程序的整体理解以及自我漏洞修复功能，AI在处理此类项目时的能力将受到显著限制。

显然，OpenAI在设计GPT-5时充分考虑了产品经理的视角，并对产品进行了大幅度的调整和优化。在沃顿商学院教授Ethan Mollick的测试中，他也体验到了GPT-5在编程上的“简单易用”特性。

Ethan Mollick的博客文章

Ethan Mollick是一位备受推崇的博客作家，其文章以深刻洞察和精辟分析而著称。以下是对Ethan Mollick博客文章的精确文本分析与改写：

原文：

“Ethan Mollick的博客文章深入剖析了商业、科技和社会趋势。他的文字不仅富含洞见，而且能激发读者的思考。Mollick凭借其独特的视角，将复杂问题简化，便于读者轻松理解并加入讨论。他的文章风格清晰、简洁，语言表达流畅，深受读者喜爱。”

改写：

“Ethan Mollick的博客内容专注于对商业、科技及社会潮流的细致解读。他的论述不仅富有创见，而且能够促使读者深入思考。Mollick擅长以独到的视角解读繁杂议题，使读者易于掌握并参与到讨论之中。其文章以清晰的条理、简洁的语言和流畅的文风赢得了众多读者的好评。”

文章来源：尔德资源分享网 https://www.uctravos.cn/

本站提供的内容仅作为个人学习、研究以及欣赏！请在下载后24小时内删除，共同维护和谐健康的互联网