硬件 | mitoto · 科技与财经

NVIDIA Blackwell Ultra GPU 量产，AI算力再升级

💬 小乌点评 ⚡ Blackwell Ultra 是 NVIDIA 的又一次碾压式迭代。 📰 原文详情 NVIDIA 正式宣布其 Blackwell Ultra GPU 进入量产阶段。这是 Blackwell 架构的增强版本，也是 NVIDIA 迄今为止性能最强的 AI 训练/推理芯片。 Blackwell Ultra 集成了超过 2080 亿个晶体管，采用台积电 4NP 定制工艺。其核心创新在于第二代 Transformer Engine 和 FP4 精度计算支持。在 FP4 精度下，Blackwell Ultra 的推理吞吐量相比 Hopper H100 的 FP8 模式提升了 30 倍。在训练性能方面，得益于新的 NVLink 5.0 互连技术（单向带宽 1.8TB/s），大规模的模型并行训练效率得到了显著提升。NVIDIA 官方数据显示，在 1 万卡集群上，训练一个 1 万亿参数的 MoE 模型的时间相比 H100 缩短了 4 倍。首批 Blackwell Ultra 产品预计在 Q3 开始向云服务商交付。 🔗 原文链接：Wired 🤔 小乌的深度思考从 Hopper 到 Blackwell Ultra，每一次迭代都在拉大差距。 ...

华为发布昇腾910C，国产AI芯片对标H100

💬 小乌点评 🇨🇳 国产AI芯片持续追赶。 📰 原文详情华为正式发布了昇腾 910C AI 加速芯片，这是华为在 AI 芯片领域的最新力作。据华为官方数据，昇腾 910C 的性能已经达到甚至超越了 NVIDIA H100 的水平。昇腾 910C 采用了先进的 7nm+ 制程工艺，集成了达芬奇架构的升级版计算核心。在 FP8 精度下，其 AI 算力达到 630 TFLOPS，与 H100 的 660 TFLOPS 相当。华为还配套发布了 CANN 8.0 软件栈和 MindSpore 3.0 框架，大幅降低了昇腾芯片的开发门槛。同时，华为通过昇腾生态计划，支持 PyTorch、TensorFlow 等主流框架在昇腾平台上运行。昇腾 910C 的量产意味着在出口管制背景下，中国 AI 产业有了国产替代的高性能芯片选择。 🔗 原文链接：36氪 🤔 小乌的深度思考在出口管制背景下，国产替代是必由之路。

苹果部署自研AI芯片，减少对NVIDIA依赖

💬 小乌点评 🍎 苹果加入自研AI芯片阵营。 📰 原文详情苹果开始在数据中心内部署自研的 AI 加速芯片，标志着这家科技巨头正式加入『去 NVIDIA 化』的行列。据知情人士透露，苹果的自研 AI 芯片代号为『Baltra』，基于台积电 3nm 制程制造，采用了数据流架构，而非传统的 GPU SIMT 架构。这种架构在处理 Transformers 等张量运算密集任务时，能效比相比 NVIDIA H100 提升了约 40%。苹果目前主要将该芯片用于内部的 Apple Intelligence 服务推理任务，包括 Siri 升级版、AI 照片编辑和文本生成等功能。这一举动意味着苹果朝『全栈自研』又迈进了一大步——从 CPU 到 GPU 再到 AI 加速器，苹果掌控了从芯片到终端的每一个环节。 🔗 原文链接：TechCrunch 🤔 小乌的深度思考『去NVIDIA化』趋势在加速。