更新于 3月17日

AI算力平台架构师/工程师

1.5-3万
  • 北京海淀区
  • 3-5年
  • 本科
  • 全职
  • 招1人

职位描述

云计算架构
一、职位概述
我们正在寻找一位既懂硬件底层又通晓AI技术的复合型人才,负责维护和管理包含NVIDIA RTX 4090、H100/H200及昇腾系列的异构算力集群。你将负责从机房物理环境、服务器硬件、高速网络到AI计算平台软件栈的全栈式部署、调优与运维,确保算力集群的稳定、高效运行。
二、工作地点
• 地点:河南省郑州市,北京或者远程办公
三、岗位职责
• 异构硬件全生命周期维护:负责RTX 4090、H100/H200及昇腾系列计算卡的服务器上架、安装、调试、日常巡检与故障排查。能够快速定位并解决显卡掉卡、电源异常、散热降频等硬件问题。
• 算力集群架构与运维:规划并搭建多机多卡算力集群,设计合理的物理网络拓扑。负责操作系统(Linux)安装、内核调优及固件升级,保障底层基础环境稳定。
• 异构软件栈配置与优化:维护NVIDIA(CUDA/NCCL/CUDNN)与昇腾(CANN/驱动)两套独立且复杂的软件生态。配置容器化运行环境,确保不同AI框架能在对应硬件上高效运行。
• 高性能网络调优:针对H100/H200的高带宽需求,配置和调试InfiniBand或RoCE高速网络。优化NCCL通信性能,解决多节点训练与推理中的网络瓶颈问题。
• 算力调度与监控:搭建并维护集群调度系统(如K8s/Slurm),实现算力资源池化与任务调度。部署监控告警系统(如Prometheus/Zabbix),实时监控GPU利用率、显存、温度及网络吞吐。
四、任职要求
• 学历与经验:计算机、电子工程、自动化等相关专业本科及以上学历;3年以上服务器运维或高性能计算中心工作经验;有大规模GPU集群维护经验者优先。
• 硬件技能:精通服务器硬件架构,熟悉PCIe拓扑、NvLink及SXM接口差异;具备极强的动手能力,能独立完成硬件更换与维修。
• 异构计算能力:必须同时具备NVIDIA和昇腾生态的实战经验。精通CUDA软件栈,熟悉CANN架构;能独立完成驱动、固件及开发工具包的安装配置。
• 网络与系统:精通Linux系统操作与Shell脚本编写;熟悉TCP/IP、InfiniBand网络协议;有RDMA、NCCL调优经验者优先。
• 容器化技术:熟练使用Docker容器技术,了解Kubernetes或Slurm调度原理。
五、加分项
• 有大模型(LLM)训练或推理部署经验(如vLLM, Transformers)。
• 熟悉主流AI框架(PyTorch/TensorFlow/PaddlePaddle)的分布式运行原理。
• 拥有HCIP/HCIE、RHCE、CCNA等专业认证。
六、我们希望你具备的素质
• 全栈思维:能够从“机房供电-硬件-网络-系统-应用”的全链路视角看待问题。
• 极强的抗压与排障能力:面对集群宕机或硬件故障时,能冷静快速地定位并解决问题。
• 文档习惯:具备良好的技术文档编写能力,能输出清晰的部署手册和故障处理记录。
七、薪资范围
• 薪资:12k-35k/月(具体面议,视经验与能力而定)

工作地点

北京海淀区华天大厦1318室

认证资质

营业执照信息

职位发布者

程女士/HR

当前在线
立即沟通
公司Logo河南乐信信息技术有限公司
河南南乐信信息技术有限公司成立于2013年,注资金3000万元,公司总部位于郑州市高新区国宏时代广场22层,办公面积1700㎡。公司以“建设数字中国,贡献乐信力量”为使命,专注物联网+ICT行业,是一家集物联网业务、运营商集团业务、智慧电力业务、电商业务、技术开发及服务为一体的综合性高新技术企业,年收入近3亿元。公司产品及服务覆盖全国各地,服务企业超2000多家,服务终端连接超3.6亿个,受到三大运营商、国家电网河南电力公司、各行业客户的一致好评。
公司主页