苹果牌AI计算卡！M5 Max AI性能深度分析！

很多人折腾本地大模型时都会遇到一个特别烦的点：不是回答慢，而是你把问题丢进去之后，它先卡在那里一动不动，等很久才开始往外吐字。这段“干等”的时间，就是TTFT，也就是首个Token生成时间。

这个问题在上一代芯片上一直挺难受。像M4 Max、M3 Ultra这种级别，算力看着很猛，但一旦输入内容变长，等待时间直接拉满，体验上就像设备没反应一样。现在换到M5 Max，这种卡顿感明显被压下去了，而且不是小修小补，是直接砍掉一大截。

为了尽量贴近真实使用情况，测试覆盖了8种不同场景，包括问答、写代码、论文生成等，输入长度从几十个token一路拉到16000个token，这种长度已经是典型重负载场景了。

先看Dense模型，也就是那种所有参数都参与计算的类型。拿Llama 70B举例，在16K输入下，M4 Max的TTFT是159秒，差不多3分钟；换成M5 Max，直接降到51秒，接近3倍提升。更关键的是，这个表现已经超过了上一代定位更高的M3 Ultra。

再看千问3.5 27B，同样是16K输入，M4 Max是57秒，M5 Max做到19.57秒，还是接近3倍的差距。这种级别的提升已经不是“优化”，而是架构层面的变化。

MoE模型这边的表现也挺有意思。千问3 35B在16K场景下，M5 Max的TTFT比M4 Max快了接近40%，输出速度也提升了接近10%。输出速度提升虽然没TTFT那么夸张，但整体流畅度明显更好。

再往上看，千问3 122B这种级别，M5 Max的TTFT已经能和M3 Ultra打平甚至略有优势。一块Max级芯片，开始对标上一代Ultra，这种定位变化已经很明显了。

看到这里基本能判断一件事：过去卡住体验的不是“算得慢”，而是“启动慢”。M5 Max把这个最影响体感的环节直接压缩掉了，本地AI从“勉强能跑”变成“能顺畅用”。

问题就来了，这种提升是怎么来的？

要理解这一点，得把AI推理拆成两个阶段。一个是Prefill，就是模型把输入读完、建立上下文，这一步主要是大量矩阵计算；另一个是Decode，就是逐字生成输出，这一步更依赖带宽。

TTFT基本完全由Prefill决定，而M5 Max的核心改进就在这里。

关键点在GPU里新增的Neural Accelerator。这个东西不是简单加点算力，而是专门针对矩阵运算做了硬件级优化。

在FP32精度下做矩阵乘法测试，如果不启用Neural Accelerator，M5 Max相比M4 Max大概提升26%，但还是比不过M3 Ultra。

一旦开启这个加速单元，情况完全不一样。在2000×2000矩阵计算中，算力从14.5 TFLOPs直接拉到48.1 TFLOPs，加速比达到3.35倍，直接超过M3 Ultra。

换成4096×4096这种更大的矩阵，加速比还能保持在2.86倍，没有明显掉速。

这说明一个问题：苹果没有单纯堆算力，而是针对AI最核心的计算路径做了精准优化。Prefill阶段本质上就是大规模矩阵乘法，这一刀砍下去，TTFT自然就下来了。

换个角度理解，就是模型“理解问题”的速度被大幅压缩了。以前要花3分钟准备的内容，现在1分钟以内搞定，用户侧感知就是响应变快，而不是输出更快。

再看CPU部分，变化也挺激进。M5 Max直接把效能核心全部砍掉，变成全性能核心设计。频率最高到4.23GHz，这种配置在移动端芯片里算是比较极端的。

结果也很直接，单核性能提升10%，多核性能直接追平M3 Ultra。这种设计明显偏向高负载场景，不再考虑低功耗运行的均衡，而是优先保证性能上限。

GPU这边，重点在内存带宽。M5 Max配的是9600MHz的LPDDR5X，带宽最高614GB/s。在这种带宽支撑下，GPU性能在Metal测试中比M4 Max提升44%，基本和M3 Ultra持平。

这里其实传递出一个比较清晰的方向：苹果不再只是做“高性能笔记本芯片”，而是在往专业计算靠。

更有意思的地方在封装和架构设计上。

以前M系列的扩展方式比较简单，做更大的单芯片，不够就像M3 Ultra那样用两颗拼在一起。

到了M5 Max，官方说法变成“通过创新封装设计，将两颗晶粒整合为一个单片系统”。这句话的重点不在“两颗”，而在“整合为一个系统”。

这不是简单拼接，而是重新组织结构。

可以推测，M5 Pro和M5 Max很可能已经采用Tile架构。一个Tile负责CPU和IO，另一个Tile负责GPU、Neural Accelerator和内存子系统。

这种分工带来一个变化：GPU和AI相关模块开始具备模块化扩展的可能。

如果继续往上堆，就不一定是传统意义上的Ultra了。理论上可以扩展到更高规模，比如80核心、100核心GPU，甚至发展成真正独立形态的AI计算卡。

这也是为什么M5 Max看起来不只是一次性能升级，而更像是在试水新的方向。

从产品形态来看，它还是一颗笔记本SOC，但从结构上看，已经开始往专业计算平台靠拢。

再往后推一层，这种架构如果成熟，苹果完全可以脱离传统PC形态，直接进入数据中心级AI计算市场。

现在的情况是，英伟达在AI算力领域几乎是标准制定者。但M5 Max已经证明，苹果可以通过架构优化在某些路径上实现超越，而不是单纯靠规模。

所以重点不在“它比上一代快了多少”，而在“它开始用不同方式做计算”。

Neural Accelerator解决的是矩阵计算效率问题，全大核CPU保证调度能力，高带宽内存支撑数据流，Tile架构提供扩展空间。这几块拼在一起，就是一个完整的AI计算底座雏形。

如果继续沿这个方向发展，M系列芯片的定位就会发生变化，从“高性能消费级芯片”转向“专业级计算平台”。

现在的M5 Max更像一个过渡版本，把关键技术全部摆上台面，但还没有完全释放规模。

换句话说，它现在表现出来的能力，可能只是这套架构的一部分潜力。

等到下一步把Tile数量继续往上叠，或者开放更高规模的GPU集群，这条路线就会变得非常清晰。

到那个时候，苹果做的不再是“电脑芯片”，而是完整的AI计算解决方案。

所以这代产品最值得关注的，不是跑分，也不是单项性能，而是它已经把路径走通了。接下来要不要做大规模扩展，取决于苹果的战略，而不是技术限制。

整个行业的格局，可能也会因此发生变化。

车圈笔记更多>>