具备AI训练集群、推理集群、AI存储集群等核心AI基础设施的高性能网络通信架构设计能力。
1、了解国内外主流AI算力芯片性能、组网架构,了解国产化算力芯片与主流深度学习框架的适配性。能够评估应对不同业务的智算集群中,CPU、GPU、存储、网络带宽等需求与配比,并进行成本分析;
2、具有InfiniBand、RoCE(RDMA over Converged Ethernet)等高性能网络设计经验。
3、精通 TCP/IP、UDP等网络协议,掌握主流智算/云计算集群架构能力,最好有公有云或私有云大规模集群网络架构设计经验,能够对网络与通信优化、能效与运维成本、安全与合规性等方面给出解决方案。