【特别更新】OpenAI春季更新：大戏到来前的半代升级

5.15 更新：
按照《少数派写作排版指南》重新修改文章细节，增加词元污染相关内容。本文授权同步发布于少数派（sspai.com），欢迎前往指教。

北京时间 5 月 14 日凌晨 1 点，OpenAI 在线上直播了 Spring Update（春季更新），特意选择在谷歌年度 I/O 大会的前一天举行，吊足了各路媒体和网友的胃口。

那么，GPT-4o 到底更新了什么？OpenAI 是否保住了自己在大模型领域的绝对话语权？为什么网友看完演示后纷纷感叹「你大爷还是你大爷」？

一个小站在一天的时间里密集阅读了各路媒体、博主、机构以及来自 OpenAI 官方的宣传视频、解读分析和实测体验，本文就来一文讲清堪称「科技界小春晚」的这次 OpenAI Spring Update。

发布会前：放料预热，辟谣捉内鬼

4 月 30 日：神秘模型登场

4 月 30 日，一个名为 gpt2-chatbot 的大模型悄然出现在大模型竞技场 LMSYS 上。尽管基准测试分数未被公开，但根据网友的实测，其性能超越了目前市面上的所有大语言模型。通过提示词引导和基于 token 分词器的研究发现，gpt2-chatbot 很可能来自 OpenAI，且应该是 GPT-4 的改进版本。其在逻辑能力、代码能力和数学能力上具备当今其他任何大模型无法比拟的优势。

网上广泛流传的对该神秘模型的分析指出：「很可能，这个神秘模型实际上是 GPT-4.5，作为一个『渐进式』模型更新的实例发布」。该模型的结构化回复似乎受到了修改后的 CoT（思维链）等技术的强烈影响。输出的整体质量——特别是其格式、结构和理解能力——绝对是一流的。多位在 LLM 提示和聊天机器人方面经验丰富的人士（在公开和私下场合）都注意到输出质量出乎意料地好。

「对我来说，感觉就像是从 GPT-3.5 到 GPT-4 的飞跃，但这次是以 GPT-4 为起点。」

5 月初：LMSYS 的操作和 Sam Altman 的回应

随着各路媒体纷纷报道，LMSYS 悄悄删除了该模型，并更新了使用政策，明确商业公司可以以「匿名发布」的方式将新模型提供给 LMSYS 平台供公众测试。LMSYS 会将反馈结果和部分样本提供给模型提供方，且模型提供方有随时撤回模型的权利。不久后，LMSYS 以 im-a-good-gpt2-chatbot 和 im-also-a-good-gpt2-chatbot 的模型名，重新上线了这一神秘模型的两个微小区别的变种。

与此同时，OpenAI 首席执行官 Sam Altman 在哈佛大学演讲中向所有人确认，gpt2-chatbot 不是 OpenAI 的「下一代大模型」（即传闻的 GPT-5）。

5 月中旬：发布会前的舆论风波

时间来到 5 月，OpenAI 近期对其官网进行了更新，网友发现 OpenAI 的域名出现了五十余个新的子域名，其中最受关注的是 search.chatgpt.com。媒体报道指出，OpenAI 一直在开发一款网络搜索产品，并分析称这将加剧与 Google 的竞争。该搜索服务将部分由 Bing 提供支持。

据外电援引消息人士 Jimmy Apples 透露，OpenAI 可能很快就会推出一款新的搜索引擎，并表示该公司计划在本月举办一场活动，暂定于 2024 年 5 月 9 日上午 10 点。知情人士还透露，OpenAI 从 1 月初开始就在招聘活动团队，负责组织内部活动。5 月 10 日，路透社报道称，OpenAI 可能会安排在谷歌年度 I/O 大会前一天发布搜索产品。

5 月 11 日，OpenAI 宣布将于美国时间 5 月 13 日上午 10 点（北京时间 5 月 14 日凌晨 1 点）在其官网上直播，展示最新的 ChatGPT 及 GPT-4 相关更新。

与此同时，OpenAI 首席执行官 Sam Altman 驳斥了路透社的一篇报道，称 OpenAI 将于下周一推出一款搜索产品。Altman 在 X 上发帖称，虽然 OpenAI 定于周一早上发布公告，但「不是 GPT-5，不是搜索引擎」，但无论它是什么，他说它「感觉就像魔术一样」。OpenAI 官方帖子提供的唯一细节是，此次发布将更新 ChatGPT 及其最新模型 GPT-4。

随后有网友爆料，所谓「搜索产品」是 OpenAI 投出的诱饵，目的是揪出内部泄密者。而经常给 Jimmy Apples 和 Flowers 泄密的爆料人，已经被 OpenAI 解雇。

而 Information 则报道称，OpenAI 正在开发一个全能的 AI 语音助手，预计在下周展示。这项新技术可以通过声音和文本与人交流，能够识别不同人的语调、语气，并能识别物体和图像。

谜底揭晓

直到发布会后，我们才从 OpenAI 官方人员的推文中得知，im-also-a-good-gpt2-chatbot 已被正式确认为 GPT-4o。他们声称，「这不仅是世界上最好的模型，而且可以免费在 ChatGPT 中使用，这在前沿模型中是前所未有的」。据称，该模型部分是应用 Q-learning 和 A* 搜索（Q*）的产物。

此外，LMSYS 确认，所有 gpt2-chatbots 都来自 OpenAI，且在内部排行榜上名列前茅，具有非常相似的 Arena ELO、置信区间、编码结果、胜率等。

GPT-4o：人人可用的顶级端到端多模态大模型

在发布会中，OpenAI 表示，希望把最强大的 AI 工具免费提供给所有人使用，未来每个人或将拥有像 GPT-7 这样的 AI 算力。

这次发布会展现了 OpenAI 工科人的直率气质，一开始就把整场发布会的要点放在了背后的 Slides 上，核心就是「人人都能用上」的 GPT-4o 模型。

GPT-4o 是 OpenAI 继 GPT-4 后推出的全新基础模型，o 代表 omni，即「全能」，体现了模型在多模态等方面的全面升级。

GPT-4o 最大的亮点是支持多模态输入输出，能够接受和生成文本、语音、图像的任意组合，使人机交互更加自然流畅。语音响应速度大幅提升，可在 232 毫秒内给出回应，接近人类水平。

在性能方面，GPT-4o 在英语文本和编程方面与 GPT-4 turbo 相当，但在非英语文本、视觉、语音理解等方面有显著提升。同时，推理速度更快，API 价格降低 50%。

基准测试：刷新记录

在多个基准测试中，GPT-4o 刷新了之前模型的最好成绩。根据 OpenAI 官方发布的数据，GPT-4o 在 MMLU（语言理解能力评测）上得分 88.7，为综合模型最高分；在 MATH 数学推理上较此前最好模型（Claude3-Opus）提升 27.5%；在 HumanEval 编程评测中达 90.5 分，也是最高水平。

【特别更新】OpenAI春季更新：大戏到来前的半代升级 - 4 — GPT-4o 文字能力基准测试结果图/OpenAI

中文能力：超越前代

5 月 14 日下午，国内致力于大模型中文推理能力的第三方测评机构 SuperCLUE 也公布了 GPT-4o 的中文能力评测结果：

【特别更新】OpenAI春季更新：大戏到来前的半代升级 - 5 — GPT-4o 中文推理能力排名图/SuperCLUE

在完成 SuperCLUE 推理任务时，GPT-4o 的整体得分为 81.73，超过 GPT-4 Turbo 成为中文推理任务最强模型。
GPT-4o 在 SC-Math6 数学基准上得分 91.77 分，较 GPT-4 Turbo 提升 1.06 分，登顶 SC-Math6 榜首，判定为推理等级 5。
GPT-4o 在 SC-Code3 代码基准上得分 71.68 分，较 GPT-4 Turbo 提升 2.11 分，刷新 SC-Code3 最好成绩。

多模态能力：语音助手的「下一个十年」

在发布会上，GPT-4o 的多模态能力成为展示的重点。演示中，语音助手和视频通话功能尤为令人惊叹：属于语音助手的「下一个十年」，似乎真的要来了。

根据 OpenAI 对 GPT-4o 模型的官方介绍，GPT-4o 是一个端到端的真正多模态大模型，能够接受文字、视觉（图片/视频）以及听觉（音频）三种类型的输入，并可输出这三者的任意组合。也就是说，原先需要 Whisper（OpenAI 发布的语音转文字模型）、GPT、TTS 三个模型逐一工作才能实现的语音助手功能，现在不仅可以由一个模型解决，甚至还支持了视频的输入。

端到端的多模态模型并不是新鲜事。曾经 Google 推出的 Gemini 模型就为我们提供了端到端多模态的例子。

不知道大家还记不记得，Gemini 发布时的演示视频，可以根据视频的输入做出分析和回应，这在当时令不少网友感到振奋。

【特别更新】OpenAI春季更新：大戏到来前的半代升级 - 6 — Gemini 的多模态能力演示视频，后被证实有剪辑

然而，Gemini 最终未能掀起太大的波澜，其演示视频也因破绽百出而被质疑。官方不得不承认视频中有加速和拼接的成分，甚至还需要人类提示词辅助，Gemini 才能根据视频输入做出符合要求的判断。

OpenAI 显然吸取了前人的教训。在发布 GPT-4o 的页面上，特地标注了「All videos on this page are at 1x real time.」，这也显示了 OpenAI 对其模型能力的信心。

尽管我们目前还不能马上体验到 GPT-4o 的语音和视频对话功能，但从现场官方的演示来看，GPT-4o 的多模态效果已经足够惊艳。

首先是情感表达。GPT-4o 由于是端到端的多模态大模型，省去了语音文字互转的步骤，相比传统的文字生成模型，可以直接捕捉到音视频中难以用文字表达的信息，比如人的表情、语气、环境音、以及说话人的身份。

从前的 ChatGPT 语音对话，软件会使用 Whisper 模型在用户停顿时，将音频发送给模型进行识别，而 Whisper 的能力则仅仅是将音频转化为类似字幕的形式。即使调用 Whisper 的所有能力，也仅能区分大致的说话人，并识别歌声、掌声等音效。

在输出方面，从前的传统 TTS 模型输出的语音都是固定的，模型（或者说程序）本身并不具备理解文字内容的能力，分析情感更是无从谈起。直到 SSML（语音合成标记语言）的出现，人们（或者大模型）可以通过在输入的文本中添加对语气和断句的标记，指导语音合成程序生成包含不同「情感」的声音。但这本质上也是预编程的结果，在没有标记提示的情况下，没有 TTS 模型可以理解自己朗读内容的情感。这也解释了去年 OpenAI 的 TTS 模型发布时，因其对人类语气、卡壳等细微动作的模仿，而一度被网友盛赞。

而 GPT-4o 的情感能力，则是在输入和输出两端都能完美展现。除了捕捉音视频中难以用文字表达的信息，GPT-4o 输出的语音也不再仅仅是冰冷的文本和固定情感语调的组合，而是真正地将每一个字节的输出都交由大模型本身。比如，在语音对话时，GPT-4o 实际上是在进行音频到音频的输出，中间不需要转换到文字的思考过程，因此大模型具备了能听能说的情感能力。

更令人惊叹的是，GPT-4o 是一个支持三种输入类型的多模态模型。在发布会上，我们看到，当 GPT-4o「看到」人类在纸上写着的「I ❤️ ChatGPT」的文字后，居然会作出感动的回应。这里涉及到的是音频和视频到音频的多模态情感能力。

也难怪有人说，《流浪地球》里的 MOSS 和科幻电影《Her》里的语音助手，都被 GPT-4o 带到了现实。

分词器更新：更懂多语言，更省 Token

GPT-4o 的推出还伴随着分词器的更新，这一更新显著提升了多语言处理能力，同时大幅减少了 Token 的使用量。

根据 OpenAI 的数据，新的分词器在多种语言上的表现都非常出色。例如，Gujarati 语言的 Token 数量减少了 4.4 倍，从 145 个减少到 33 个；Telugu 语言减少了 3.5 倍，从 159 个减少到 45 个；甚至对于相对复杂的中文，Token 数量也减少了 40%，从 34 个减少到 24 个。

从当前网友的分析来看，新的分词器名为「o200k_base」，包含了更多的词汇，从而显著压缩不同语言的 Token 数量。

分词器的更新也是 GPT-4o 生成速度更快的原因。哪怕在算力和模型规模不变的情况下，通过减少 Token 数量（如一个 Token 包括更多字符，比如中文的成语、俗语等），用户也能感知到明显的生成速度提升。更何况在当前调用 API 的体验来看，GPT-4o 模型每秒生成的 Tokens 数量也有显著提升。

然而，据许多网友的实测发现，此次 OpenAI 扩充分词器的词元规模，也引进了许多低质量的、明显是受到污染的中文短语。这一情况在中文的较长词元中尤为明显。

【特别更新】OpenAI春季更新：大戏到来前的半代升级 - 8 — 新的分词器中较长词元，有很严重的污染现象

目前 Github 上已经有较多讨论和研究，你可以前往这里查看。

对于中文网站，尤其是境外的中文网站，数据质量的确不容乐观。OpenAI 此次扩充词元但没有考虑数据质量问题，应该是一个非常大的纰漏。这些低质词元不仅会导致输出内容可能包含不良信息，而且由于低质词元通常在语料中出现不规律，模型训练效果普遍不足，模型输出可能会在遇到这些特定词元时出现异常现象，如近似随机的输出。

但也有分析指出，由于目前模型已经训练完成，要剔除受污染词元，在技术上难度较高，OpenAI 会通过何种方式进行补救，还是一个未知数。

OCR 能力更新：能看懂中文，更能看懂题

在 GPT-4o 的更新中，OCR（光学字符识别）能力也得到了显著提升。新模型不仅能够更准确地识别和理解中文文本，还在理解复杂的图表和题目上表现得更加出色。

一个小站分别使用中英板书、中文海报等常见 OCR 识别场景进行了测试，实测发现，GPT-4o 对多语言（包括中文、日语）的 OCR 能力有了显著进步，目前已经基本达到可用水准。

可以期待一下，当视频通话功能推送以后，中文用户应该也可以体验到 GPT-4o 的绝大多数能力。

更令人振奋的是，GPT-4o 由于数学和编程基础推理能力的显著提升，现在对于公式 OCR 后解题的成功率也大幅提升。加上视频对话功能，20 美元一月就能请到顶级家教，岂不美哉。

ChatGPT 产品更新：第一手体验

【特别更新】OpenAI春季更新：大戏到来前的半代升级 - 10 — GPT-4o 推送弹窗图/一个小站

5 月 14 日凌晨 1 点，OpenAI Spring Update 线上发布会如期举行。早上 8 点，一个小站发现，免费版的 ChatGPT 已经收到了最新的 GPT-4o 推送。

在左上角的模型切换页面，原先的「GPT-3.5」和「GPT-4」选项被「ChatGPT」和「ChatGPT Plus」取代。也就是说，收到 GPT-4o 推送的免费版用户，新建对话时已经默认使用 GPT-4o 模型了。当免费的 GPT-4o 配额用尽时，会自动切换至 GPT-3.5 模型，此后无法进行对文档和图片的对话，也无法使用 GPTs、联网和数据分析等功能。

到了中午，一个小站的 Plus 账号和 Team 账号也陆续收到了 GPT-4o 模型的推送。在 Plus 和 Team 的界面中，OpenAI 保留了 GPT-4 模型，提供「GPT-4o」、「GPT-4」和「GPT-3.5」三种模型供付费用户自由选择。

不久后，一个小站也收到了发布会上提及的 ChatGPT 网页版新 UI Juice 的推送。

【特别更新】OpenAI春季更新：大戏到来前的半代升级 - 12 — ChatGPT 网页版新 UI Juice 图/一个小站

初步观察，新 UI 整体更加圆润、简洁。在每一条回复的下方新增了切换模型的选项，用户可以自由选择不同模型重新生成该对话。同时，用户提问以对话气泡展示，突出了对话感。

至于官方发布会中提及的 macOS 客户端和其他新功能，截至发稿时仍在白名单灰度阶段。让我们期待正式上线的样子吧。

一个小站经过实测发现，目前网页版的 ChatGPT 还不具备 GPT-4o 模型的所有多模态能力，包括对音视频的读取、生成以及对文档中图片的读取。

此外，一个小站通过对不同等级账号的模型请求抓包发现，对于免费账户，GPT-4o 模型的 Tokens 上下文窗口仍然和 GPT-3.5 相同，为 8192（8k），而 Plus 会员和 Team 团队版则均为 32768（32k），这与此前的 GPT-4（All Tools）模型的上下文限制相同。

受限于网页版的请求上下文限制，可以预见，免费版用户所体验到的 GPT-4o 模型将会有「降智」表现。而哪怕是付费会员，在网页版的 ChatGPT 中进行对话时仍然采用滑动上下文窗口，而非 128k 的模型理论最大上下文窗口。在阅读大型文档时，模型仍然只能获取开头部分内容，后续内容需要模型使用内置工具进行文中搜索获取，阅读长文的体验很有可能与当前不会有较明显差异，甚至可能不如以长上下文窗口著称的 Claude 和国内的 Kimi。

大戏到来前的半代升级

从 4 月底神秘模型 gpt2-chatbot 的曝光，到 5 月中旬 GPT-4o 的正式发布，OpenAI 的这次春季更新无疑再次激起了人们对大模型，或者说对 OpenAI 本身的讨论激情。

然而，根据市场普遍预测，OpenAI 今年的「大招」远不止于此。其「下一代」模型 GPT-5 已经基本完成训练，不久前开始进入红队安全测试阶段，预计最快会在今年年中正式发布。

阿里的通义千问，从 1.5 追赶到 2.5，才终于做到国内第一，全球第三的成绩；百度的文心一言，从 3.5 追到 4.0，现在看来也稍显掉队。而 Sam Altman 却会对外宣称，当前已经稳坐世界大模型头把交椅的 GPT-4o 还不是 OpenAI 的「下一代大模型」，可见 OpenAI 的野心和实力之大。要想追上，谈何容易。

一个小站猜测，本次 OpenAI Spring Update 属于「大戏到来前的半代升级」，是夺回舆论焦点和行业话语权的例行升级。至于人们正在期待的下一代大模型「GPT-5」，就让我们拭目以待吧。