更新于 今天

大模型运维岗

1.3-2万
  • 保定容城县
  • 3-5年
  • 本科
  • 全职
  • 招1人

职位描述

云运维人工智能云计算/大数据
岗位职责:
1.负责部门大模型服务的基础设施规划、部署运维和性能优化,保障AI服务的高可用性、高性能和低成本运行;
2.负责大模型推理服务的整体架构设计和方案选型,搭建高可用、高性能的大模型服务集群,实现模型的容器化部署,制定标准化的部署流程和规范,设计服务的高可用方案,包括负载均衡、故障转移、自动扩缩容等,支持多模型、多版本的并行部署和管理;
3.负责GPU服务器集群的规划和建设,实施GPU算力的资源池化管理,实现集约化调度,设计资源调度策略,提升GPU利用率和任务吞吐量,监控GPU使用情况,进行容量规划和成本优化,研究GPU虚拟化技术(如MIG、vGPU等),提升资源利用效率;
4.持续优化大模型服务性能,降低推理延迟、提升并发能力,研究模型量化、蒸馏、剪枝等优化技术,降低资源消耗,分析资源使用成本,制定降本增效方案,进行性能压测和容量评估,保障业务高峰期的服务稳定性。
任职要求:
1.大学本科及以上学历,计算机、人工智能等相关专业优先;
2.3年以上运维工程师工作经验,有云原生或AI基础设施领域经验者优先,有大模型(LLM)推理服务运维经验者优先,有大规模GPU集群管理经验者优先;
3.精通Linux操作系统原理和性能调优,熟练掌握Linux系统管理、网络配置、存储管理,熟悉systemd、crontab、systemtap等系统工具;
4.深入理解Docker容器技术原理,能够编写高效的Dockerfile, 精通Kubernetes,包括资源调度、网络策略、存储管理、安全机制等, 熟悉Helm、Kustomize等K8s应用管理工具, 有K8s Operator开发经验者优先;
5.了解大模型推理的基本原理和流程,熟悉主流推理框架:vLLM、Triton Inference Server、TensorRT-LLM、Text Generation Inference等, 了解模型优化技术:量化(INT8/INT4/FP16)、蒸馏、KV Cache优化、Continuous Batching等, 了解分布式推理和模型并行技术;
6.具备优秀的故障排查和问题分析能力,能够快速定位并解决复杂问题,对AI基础设施和云原生技术保持高度热情,持续学习新技术,对工作高度负责,能够承担7×24小时值班和应急响应,良好的沟通协作能力,能够与算法、开发、产品等团队高效配合,能够在高压环境下保持冷静,快速处理紧急情况。

工作地点

保定容城县雄安城市计算(超算云)中心

认证资质

营业执照信息

职位发布者

罗女士/HR

今日活跃
立即沟通