1、负责大模型系统(如 RAG、ASR、语音模型等)在各类交付场景下的部署、运行与稳定性保障,包括 GPU 服务部署调优、基础设施交付、环境构建等;
主导基础设施与交付环境的整体设计、架构优化、安全加固、性能调优和容灾设计,确保大模型系统稳定、高可用;
2、输出技术方案,参与并支持公司重大项目落地,负责端到端的运维交付解决方案(涵盖物理机虚拟化链路计算存储等);
3、承担复杂系统的故障排查与性能瓶颈定位,支持跨层级(网络存储计算微服务)性能调优;
4、搭建并优化自动化运维体系,推动 AnsibleShellPython 等工具在运维工具链中的落地,实现批量化、标准化部署;
5、与产品、研发等团队高效协同,参与项目规划、资源调配、上线变更等流程,推动运维能力嵌入系统交付全生命周期;
6、负责 GPU 服务器(如 NVIDIA A100H100、鲲鹏、910B 等)管理、驱动库安装、性能调优等底层运维工作。
任职资格:第一学历为学信网统招本科及以上学历
1、扎实的基础设施能力,熟悉计算、存储、网络等系统架构设计与优化;
熟悉 Kubernetes、Docker、Helm 等容器化技术及其在 AI大模型场景下的落地应用;
2、熟悉中间件组件如 MySQL、Redis、MongoDB、Kafka 等,在 x86 ARM 架构下的部署与高可用设计;
3、熟悉 GPU 驱动、CUDA、NCCL 等核心依赖栈配置和调优,有实际部署多模型、多实例 GPU 任务经验优先;
4、精通 Linux 性能调优工具(如 perf、iostat、nmon、strace、netstat 等),具备复杂问题快速定位与根因分析能力;
加分项:
有大模型训练推理集群的部署与维护经验;
有基于 Kubernetes 构建开源、自建推理模型的实操经验;
熟悉 Prometheus Grafana Loki ELK 等可观测性工具;
有参与国央企、AI公司、云厂商交付型项目经验者优先。