一、岗位职责: 1.在公司AI系统解决方案制定、售前支持和项目落地中起到关键技术带头作用; 2.系统架构设计:主导智算集群(GPU/TPU/NPU异构计算)的系统架构规划,设计高吞吐、低延迟的计算与存储方案,支持大规模模型训练与推理场景。 3.性能深度优化:从硬件(芯片互联、内存带宽)、框架(PyTorch/TensorFlow)、算法(模型并行策略)全栈协同优化,提升算力利用率(MFU)与能效比。 4.异构计算生态整合:对接芯片厂商(如NVIDIA、华为昇腾等),完成驱动、固件、计算库(CUDA/MindSpore)的适配与调优,解决跨平台兼容性问题。 5.技术前瞻与落地:跟踪AI芯片(如存算一体、光计算)、液冷技术等前沿方向,推动创新技术在智算中心的工程化落。 二、任职要求 1.学历与专业:计算机科学、电子工程、应用数学等相关专业博士。 2.核心能力 l 精通异构计算架构(GPU/TPU/FPGA),熟悉NVLink、RoCE、InfiniBand等高速互联技术。 l 深入理解深度学习训练/推理流程,具备PyTorch/TensorFlow框架底层优化经验(如算子融合、显存优化)。 l 掌握C++/Python,熟悉Linux内核机制,能通过perf、Nsight等工具分析系统瓶颈。 l 了解分布式训练框架(DeepSpeed、Megatron-LM)。 3.软技能: l 具备技术领导力,能统筹硬件、算法、运维团队协同,输出高质量技术方案与专利。 三、加分项 l 具备高性能计算(HPC)或AI系统研发经验,有智算中心、云厂商AI平台建设经验者优先。 l 有AI芯片(如NVIDIA H100/H200、华为昇腾910B、沐曦、寒武纪、天数智芯、的适配与优化能力)底层驱动或固件开发经验。 l 熟悉液冷系统设计、绿色数据中心能效优化方案。 l 有千亿参数模型训练优化经验者优先。