华为发布 Atlas 900 SuperCluster：支持超万亿参数的大模型训练

热门爆料 • 2023-09-21 10:40:48

　　9月20日消息，今日，在华为全联接大会 2023 期间，汪涛，华为常务董事、ICT 基础设施业务管理委员会主任、企业 BG 总裁，正式发布了引领AI计算领域的创新力作——Atlas 900 SuperCluster。这一全新的AI计算集群将为超大规模模型训练提供支持，具备令人瞩目的性能和可靠性。

　　Atlas 900 SuperCluster采用了华为最新的星河AI智算交换机 CloudEngine XH16800，这款交换机拥有高密度的800GE端口能力，仅通过两层交换网络即可实现2250个节点的超大规模无收敛集群组网，相当于18000张计算卡的强大计算能力。这一技术突破将为研究人员和企业带来更广泛、更高效的AI计算体验。

　　此外，Atlas 900 SuperCluster还引入了创新的超节点架构，大幅提升了大型模型训练的能力。华为充分发挥在计算、网络、存储和能源等领域的综合优势，从器件级、节点级、集群级和业务级全面提升系统可靠性。这一举措将大型模型训练的稳定性提升至月级，为AI应用的可靠性提供了坚实的基础。

　　华为发布 Atlas 900 SuperCluster：支持超万亿参数的大模型训练

　　据本站了解，华为还发布了CANN 7.0异构计算架构，这一架构不仅兼容业界主流的AI框架、加速库和大型模型，还深度开放底层能力，使开发者能够更灵活地调用和管理计算资源，为大型模型带来了差异化的竞争力。此外，Ascend C编程语言也经过升级，以更高效的方式简化算子实现逻辑，从而缩短了融合算子的开发周期，加速了AI模型与应用的开发进程。

　　华为云官网今日正式上线了昇腾AI云服务的“百模千态”专区，专区提供了全面适配和优化的业界主流开源大型模型，并提供了一键接入的开发工具链，使开发者能够更轻松地使用这些模型。这将为全球企业和开发者提供更便捷的AI计算资源和工具。

华为发布 Atlas 900 SuperCluster：支持超万亿参数的大模型训练

相关推荐