中国AI服务器，刷新全球18项性能基准测试纪录

2021-10-12 19:17:14

　美国东部时间 10 月 21 日，全球倍受瞩目的权威 AI 基准测试 MLPerf 公布今年的推理测试榜单，浪潮 AI 服务器 NF5488A5 一举创造 18 项性能记录，在数据中心 AI 推理性能上遥遥领先其他厂商产品。

　　MLPerf 是当前全球最具影响力的 AI 计算基准评测组织，由图灵奖得主大卫·帕特森（David?Patterson）联合谷歌、斯坦福、哈佛大学等单位共同成立，每年组织全球 AI 训练和 AI 推理性能测试并发榜。此次 MLPerf 的 AI 推理基准测试有全球 23 家公司和单位参与，在数据中心及边缘等场景进行 AI 计算产品的性能比试。今年 MLPerf 训练榜单已于 7 月公布。

　　浪潮 NF5488A5 获数据中心 AI 性能绝对优势

　　此次浪潮 NF5488A5 一举创造 18 项 MLPerf 推理性能记录，成为创纪录最多的 AI 服务器。今年的测试中，数据中心 AI 性能最受关注，全部参与机构提交了 507 项性能测试数据。浪潮 NF5488A5 创下了数据中心 22 个赛项中的 13 项性能记录以绝对优势领先，NVIDIA DGX 取得了 5 项数据中心性能记录。而在此前的 MLPerf 训练榜单中，NF5488A5 在最核心的 Resnet50 训练任务中也创下了性能记录，单机性能高居榜首。

　　△浪潮 NF5488A5 创造 18 项 MLPerf 推理性能新记录

　　性能大幅提升 3 倍，全栈 AI 能力优势凸显

　　在此次基准测试中，浪潮 AI 服务器 NF5488A5 在开放优化(Open)和固定任务(Closed)的 ResNet50 基准性能测试中，均表现优异，相比 2019 年 MLPerf 推理榜单的服务器最好性能提升高达 3 倍。

　　△ 2019、2020 年 ResNet50 推理性能对比

　　NF5488A5 是浪潮自研的新一代 AI 服务器，是此次 MLPerf 全球竞赛中唯一可以在 4U 空间内支持 8 块安培架构 A100 芯片实现 NVLink 高速互联的 AI 服务器。浪潮 NF5488A5 在系统拓扑上采用了超低延迟设计，支持 PCIe 4.0 全链路极致优化，高频通信单元采用一级拓扑最近连接，最大限度提升处理器到 AI 芯片间的通信性能。同时，通过配置 NUMA 节点，确保每颗处理器与其直连的 GPU 之间通信性能最优，最大限度降低通信延迟。此外，NF5488A5 通过深度优化系统结构设计，确保设备可在高温环境下稳定运行。

　　本次基准测试中，浪潮展示出了卓越的 AI 计算软硬件协同优化能力。在硬件层面，通过对 CPU、GPU 硬件性能的精细校准和全面优化，使 CPU 性能、GPU 性能、CPU 与 GPU 之间的数据通路均处于对 AI 推理最优状态；在软件层面，结合 GPU 硬件拓扑对多 GPU 的轮询调度优化使单卡至多卡性能达到了近似线性扩展；在深度学习算法层面，结合 GPU Tensor Core 单元的计算特征，通过自研通道压缩算法成功实现了模型的极致性能优化，在精度无损的情况下性能提升近 2 倍。

　　△ 各服务器 MLPerf AI 推理性能对比（以浪潮 NF5488A5 为基准，越高越好）

　　浪潮是全球领先的 AI 计算领导厂商，其 AI 服务器在中国的市场份额已连续三年保持在 50% 以上。浪潮致力于 AI 计算平台、资源平台和算法平台的研发创新，并通过元脑生态与 AI 领先企业共同推进 AI 产业化和产业 AI 化进程。

　　— 完 —

来自: mp.weixin.qq.com