登录
首页 > 奔驰汽车 > 苹果牌AI计算卡!M5 Max AI性能深度分析!

苹果牌AI计算卡!M5 Max AI性能深度分析!

发布时间:2026-05-05 09:24:35 发布用户: chengxin

很多人折腾本地大模型时都会遇到一个特别烦的点:不是回答慢,而是你把问题丢进去之后,它先卡在那里一动不动,等很久才开始往外吐字。这段“干等”的时间,就是TTFT,也就是首个Token生成时间。

 

这个问题在上一代芯片上一直挺难受。像M4 Max、M3 Ultra这种级别,算力看着很猛,但一旦输入内容变长,等待时间直接拉满,体验上就像设备没反应一样。现在换到M5 Max,这种卡顿感明显被压下去了,而且不是小修小补,是直接砍掉一大截。

为了尽量贴近真实使用情况,测试覆盖了8种不同场景,包括问答、写代码、论文生成等,输入长度从几十个token一路拉到16000个token,这种长度已经是典型重负载场景了。

先看Dense模型,也就是那种所有参数都参与计算的类型。拿Llama 70B举例,在16K输入下,M4 Max的TTFT是159秒,差不多3分钟;换成M5 Max,直接降到51秒,接近3倍提升。更关键的是,这个表现已经超过了上一代定位更高的M3 Ultra。

 

再看千问3.5 27B,同样是16K输入,M4 Max是57秒,M5 Max做到19.57秒,还是接近3倍的差距。这种级别的提升已经不是“优化”,而是架构层面的变化。

MoE模型这边的表现也挺有意思。千问3 35B在16K场景下,M5 Max的TTFT比M4 Max快了接近40%,输出速度也提升了接近10%。输出速度提升虽然没TTFT那么夸张,但整体流畅度明显更好。

再往上看,千问3 122B这种级别,M5 Max的TTFT已经能和M3 Ultra打平甚至略有优势。一块Max级芯片,开始对标上一代Ultra,这种定位变化已经很明显了。

看到这里基本能判断一件事:过去卡住体验的不是“算得慢”,而是“启动慢”。M5 Max把这个最影响体感的环节直接压缩掉了,本地AI从“勉强能跑”变成“能顺畅用”。

问题就来了,这种提升是怎么来的?

 

要理解这一点,得把AI推理拆成两个阶段。一个是Prefill,就是模型把输入读完、建立上下文,这一步主要是大量矩阵计算;另一个是Decode,就是逐字生成输出,这一步更依赖带宽。

TTFT基本完全由Prefill决定,而M5 Max的核心改进就在这里。

关键点在GPU里新增的Neural Accelerator。这个东西不是简单加点算力,而是专门针对矩阵运算做了硬件级优化。

在FP32精度下做矩阵乘法测试,如果不启用Neural Accelerator,M5 Max相比M4 Max大概提升26%,但还是比不过M3 Ultra。

一旦开启这个加速单元,情况完全不一样。在2000×2000矩阵计算中,算力从14.5 TFLOPs直接拉到48.1 TFLOPs,加速比达到3.35倍,直接超过M3 Ultra。

 

换成4096×4096这种更大的矩阵,加速比还能保持在2.86倍,没有明显掉速。

这说明一个问题:苹果没有单纯堆算力,而是针对AI最核心的计算路径做了精准优化。Prefill阶段本质上就是大规模矩阵乘法,这一刀砍下去,TTFT自然就下来了。

换个角度理解,就是模型“理解问题”的速度被大幅压缩了。以前要花3分钟准备的内容,现在1分钟以内搞定,用户侧感知就是响应变快,而不是输出更快。

再看CPU部分,变化也挺激进。M5 Max直接把效能核心全部砍掉,变成全性能核心设计。频率最高到4.23GHz,这种配置在移动端芯片里算是比较极端的。

结果也很直接,单核性能提升10%,多核性能直接追平M3 Ultra。这种设计明显偏向高负载场景,不再考虑低功耗运行的均衡,而是优先保证性能上限。

GPU这边,重点在内存带宽。M5 Max配的是9600MHz的LPDDR5X,带宽最高614GB/s。在这种带宽支撑下,GPU性能在Metal测试中比M4 Max提升44%,基本和M3 Ultra持平。

这里其实传递出一个比较清晰的方向:苹果不再只是做“高性能笔记本芯片”,而是在往专业计算靠。

更有意思的地方在封装和架构设计上。

 

以前M系列的扩展方式比较简单,做更大的单芯片,不够就像M3 Ultra那样用两颗拼在一起。

到了M5 Max,官方说法变成“通过创新封装设计,将两颗晶粒整合为一个单片系统”。这句话的重点不在“两颗”,而在“整合为一个系统”。

这不是简单拼接,而是重新组织结构。

可以推测,M5 Pro和M5 Max很可能已经采用Tile架构。一个Tile负责CPU和IO,另一个Tile负责GPU、Neural Accelerator和内存子系统。

这种分工带来一个变化:GPU和AI相关模块开始具备模块化扩展的可能。

如果继续往上堆,就不一定是传统意义上的Ultra了。理论上可以扩展到更高规模,比如80核心、100核心GPU,甚至发展成真正独立形态的AI计算卡。

这也是为什么M5 Max看起来不只是一次性能升级,而更像是在试水新的方向。

从产品形态来看,它还是一颗笔记本SOC,但从结构上看,已经开始往专业计算平台靠拢。

再往后推一层,这种架构如果成熟,苹果完全可以脱离传统PC形态,直接进入数据中心级AI计算市场。

现在的情况是,英伟达在AI算力领域几乎是标准制定者。但M5 Max已经证明,苹果可以通过架构优化在某些路径上实现超越,而不是单纯靠规模。

 

所以重点不在“它比上一代快了多少”,而在“它开始用不同方式做计算”。

Neural Accelerator解决的是矩阵计算效率问题,全大核CPU保证调度能力,高带宽内存支撑数据流,Tile架构提供扩展空间。这几块拼在一起,就是一个完整的AI计算底座雏形。

如果继续沿这个方向发展,M系列芯片的定位就会发生变化,从“高性能消费级芯片”转向“专业级计算平台”。

现在的M5 Max更像一个过渡版本,把关键技术全部摆上台面,但还没有完全释放规模。

换句话说,它现在表现出来的能力,可能只是这套架构的一部分潜力。

等到下一步把Tile数量继续往上叠,或者开放更高规模的GPU集群,这条路线就会变得非常清晰。

到那个时候,苹果做的不再是“电脑芯片”,而是完整的AI计算解决方案。

所以这代产品最值得关注的,不是跑分,也不是单项性能,而是它已经把路径走通了。接下来要不要做大规模扩展,取决于苹果的战略,而不是技术限制。

整个行业的格局,可能也会因此发生变化。

Copyright 2016-2026 柠檬网 版权所有  意见邮箱:dwzjb123@126.com