8月8日凌晨,全球关注的焦点转向了GPT-5的亮相,这一时刻距离GPT-4的推出已有两年半。尽管与ChatGPT的惊艳首演、GPT-4的显著进步以及o1的轰动效应相比,GPT-5的发布会显得相对平淡。Benchmark的表现不够突出,缺乏创新的新模式,展示的应用案例难以激起兴趣,甚至在PPT中出现了错误,这些因素共同构成了这场持续1小时20分钟的发布会。
尽管如此,GPT-5并非没有进步。它极低的幻觉率、前端能力的增强、上下文理解能力的显著提升,以及极具竞争力的价格,都是此次发布会的亮点。特别是在价格方面,GPT-5凭借其卓越的编程能力,其API价格仅为昨日发布的Claude Opus 4.1的1/15,甚至低于Gemini 2.5 Pro。这对Anthropic来说无疑是一记重击。
尽管OpenAI在今晚失去了昔日的神秘感,但它在与其他厂商的竞争中依然稳固了自己的地位。
GPT-5本体:有限的升级,微小的SOTA提升
GPT-5共有四个版本,包括GPT-5、GPT-5 mini、GPT-5 nano,以及仅面向企业用户和每月支付200美元的高级用户开放的GPT-5 Pro模式。普通用户默认使用的是综合的GPT-5模型,该模型由多个模型构成,如处理大多数问题的“智能且快速”模型(gpt-5-main)和解决更复杂问题的“更深层推理”模型(gpt-5-thinking)。这种统一的设计通过实时路由器来决定针对特定查询使用哪个模型。
mini和nano版本由API用户自行选择,而GPT-5 Pro模式则类似于Grok 4的Hard模式,采用并行测试计算,一次并行多个模型进行更长时间的运算。它利用更大的算力,提供了最全面、最精确的答案。在超高难度的科学问题(GPQA)上,GPT-5刷新了世界纪录。在与人类专家的“盲测”中,近7次被认为优于人类。
在能力和评分上,GPT-5在几乎所有方面都有所提升,但与当前SOTA相比,提升幅度有限,与o3相比也仅有微小的优势。
智力水平:体验最佳,但非智力最佳
在智力水平上,GPT-5在各种主流评测集中均优于o3,但整体差距并不大。
通过对这些领先数学测试集的详细结果进行剖析,我们发现GPT-5的得分并未超越ChatGPT Agent。事实上,只有在激活Pro模式的情况下,GPT-5的表现才实现了显著进步。
在对比GPT-5与其他模型时,我们发现该模型在多数“智力”测试中仅略胜一筹,部分技能甚至未能达到现有最佳水平(SOTA)。总体来看,GPT-5仅以微弱的优势领先。因此,我们难以断定其实现了显著或突破性的能力进步。
总体来看,Artificial Analysis的评估数据表明,GPT-5目前处于领先地位,但其总分仅领先o3两分,且与Grok 4的差距仅为一分。
在Arc Prize的挑战赛里,GPT-5的表现未能达到预定的标准,尤其是在这场被视为通用人工智能(AGI)最终检验的竞赛中,它未能超越Grok 4,且差距显著。
尽管如此,我们也注意到,GPT-5在计算效率上相较于o3确实取得了进步,它以更少的token用量就能实现比o3更优的效果,并且其效率也超过了Anthropic的模型。
OpenAI对这一现象作出了解释,指出GPT-5在解决复杂问题时,其所需的token数量可以减少50%-80%。
马斯克对此感到异常兴奋,频繁在社交媒体上热情地发布推文。最近,Grok在AI国际象棋比赛中大放异彩,成功战胜了OpenAI,看来在这次发布会之后,Grok无疑成为了最大的赢家。
尽管如此,GPT-5在用户体验方面实现了显著的进步。
在LMArena这个以进行用户双盲对比不同模型性能著称的排行榜上,GPT-5在所有测试任务中均取得了第一名的好成绩。
在本次会议中,OpenAI重点介绍了其在编程领域的最新进展。GPT-5在“思考”模式下的性能相比以往版本有了显著提升,极大地简化了编程过程,有效缓解了编程中的难点问题。
尽管持续将Anthropic近期发布的Claude 4.1 Opus作为对比对象,但其在性能上的优势仍然微乎其微,仅相差0.3%。
尽管GPT-5在编程基准测试中并不突出,OpenAI却在编程的实际应用中进行了多项优化。在发布会上,该公司详细介绍了编程体验的几项重要提升,这些优化主要集中在理解编程需求、错误修正以及工具的广泛应用上。
这些提升主要归功于较为成熟的智能体式编码系统。GPT-5在执行智能体式编码任务时表现出色,能够运用多种工具,并能持续工作数分钟甚至更长时间以完成复杂指令。在编码过程中,该模型还能主动沟通,阐述其计划、步骤和发现,仿佛是一个协作团队。
为了实现这种类似协作伙伴的行为,OpenAI团队对模型进行了针对性的调整,着重强化以下特性:自主性、协作与沟通以及测试。
GPT-5在理解编程需求和遵循指令方面的改进,使其能将模糊或详细的指令转化为实际可执行的代码,从而帮助非编程人士实现他们的创意。
一些用户在推特上发表了相应的反馈。
经过OpenAI的细致调整,工具调用功能得到了显著提升。这一进步在Tau测试集中表现得尤为明显。Tau测试集设计用于评估AI模型在模拟真实世界场景中与用户进行互动对话,并高效使用外部工具(如API或函数调用)完成任务的能力。尤其在电信领域,这一模型的能力提升尤为显著。
一项重要更新集中在“漏洞修复”功能的显著强化上。
在演示中,GPT-5展现了其深入分析真实代码库(如OpenAI的Python SDK)的能力,通过搜索和读取文件来理解代码的架构与逻辑,并最终定位问题的核心。该模型甚至能洞察人类工程师在架构决策背后的深层动机,例如出于提升安全性的考虑。
此外,GPT-5还具备自动修复自身漏洞的能力。在一次前端应用开发任务的展示中,GPT-5在完成代码编写后,会自动尝试构建项目。在构建过程中遇到错误时,它能接收错误信息并自我反馈,然后基于这些信息对代码进行修改和迭代。OpenAI的演示人员将这一过程描述为“一个具有里程碑意义的时刻”和“自我优化的循环”。
在解决特定漏洞时,该模型还表现出了卓越的智能水平。例如,在代码审查过程中,它能够识别出其他问题,但又能准确判断这些问题与当前要修复的漏洞无关,从而避免了不必要的工作。
这一点在当前的开发环境中尤为重要。今年的一项研究表明,一个看似反直觉的现象:使用AI辅助编程可能会降低工作效率,而非提升。这主要是由于程序员日常处理的是旧代码的迭代,而非全新项目。
因此,如果没有对复杂程序的整体理解以及自我漏洞修复功能,AI在处理此类项目时的能力将受到显著限制。
显然,OpenAI在设计GPT-5时充分考虑了产品经理的视角,并对产品进行了大幅度的调整和优化。在沃顿商学院教授Ethan Mollick的测试中,他也体验到了GPT-5在编程上的“简单易用”特性。
Ethan Mollick的博客文章
Ethan Mollick是一位备受推崇的博客作家,其文章以深刻洞察和精辟分析而著称。以下是对Ethan Mollick博客文章的精确文本分析与改写:
原文:
“Ethan Mollick的博客文章深入剖析了商业、科技和社会趋势。他的文字不仅富含洞见,而且能激发读者的思考。Mollick凭借其独特的视角,将复杂问题简化,便于读者轻松理解并加入讨论。他的文章风格清晰、简洁,语言表达流畅,深受读者喜爱。”
改写:
“Ethan Mollick的博客内容专注于对商业、科技及社会潮流的细致解读。他的论述不仅富有创见,而且能够促使读者深入思考。Mollick擅长以独到的视角解读繁杂议题,使读者易于掌握并参与到讨论之中。其文章以清晰的条理、简洁的语言和流畅的文风赢得了众多读者的好评。”