该职位已失效,看看其他机会吧

AI运维平台工程师

1.5-2万
  • 北京昌平区
  • 5-10年
  • 大专
  • 全职
  • 招1人

雇员点评标签

  • 免费班车
  • 工作环境好
  • 同事很nice

职位描述

大模型、AIAI人工智能
岗位职责:
1、AI平台稳定性与性能保障:负责公司AI模型(特别是大型语言模型及其他深度学习模型)生产环境的7x24高可用保障,包括模型推理服务、训练/微调集群等。建立针对AI工作负载的专项监控、告警与可观测性体系(如GPU资源利用率、模型推理延迟、QPS、Token消耗、异常检测等)。主导AI模型服务相关的线上故障排查,解决包括硬件、驱动、框架、依赖服务在内的复杂问题。
2、AI模型部署与MLOps流程建设:设计并实施高效、自动化的模型部署(CI/CD)流水线,实现从模型镜像构建、版本管理、灰度发布到一键回滚的全流程自动化。优化模型的部署架构,支持蓝绿部署、金丝雀发布等策略,确保模型更新平稳、安全。深入运维至少一种主流国产大模型平台(如华为、阿里云百炼、智谱GLM-开放平台等),负责其与公司现有技术栈的集成、运维和调优。
3、基础设施优化与成本控制:管理和优化GPU/NPU等异构计算资源池,提高资源利用率和投资回报率。对AI工作负载进行性能调优,包括模型服务化框架(如Triton, TGI, vLLM)、容器编排层(K8s Device Plugin)及硬件驱动层面。通过资源调度策略、弹性伸缩等手段,有效控制高昂的算力成本。
4、技术前瞻与标准化:研究和引入业界先进的MLOps工具链和最佳实践(如KubeFlow, MLflow等)。制定AI模型部署、运维的规范和标准,编写技术文档,赋能AI研发团队。
任职要求:
经验:​ 5年以上运维/DevOps/SRE经验,至少包含1年以上AI模型生产环境部署和运维经验。
核心运维能力:​ 精通Linux、网络、容器化(Docker)和编排技术(Kubernetes),自动化能力(Python/Go/Shell, Terraform/Ansible)扎实。
AI模型部署专长:熟悉主流的深度学习框架(如PyTorch, TensorFlow)及其模型格式。拥有丰富的模型服务化(Model Serving)经验,熟悉至少一种推理服务框架(如NVIDIA Triton, TensorFlow Serving, TGI, vLLM)。精通Kubernetes上GPU资源的调度和管理(如Device Plugin, GPU共享等)。
国产大模型平台经验:具备对至少一种国产大模型平台(如文心千帆、阿里百炼、智谱GLM、Kimi等)的实际运维经验,熟悉其API、管控台、计费模式和高可用方案。理解其与自有机房或公有云环境的集成方式。
监控与排障:​ 有能力构建针对AI服务的可观测性系统,熟练使用Prometheus、Grafana等工具监控GPU、推理延迟等关键指标。
加分项:
有大规模AI训练集群的运维经验(如使用Ray, Kubeflow Training Operator)。
有模型量化、剪枝、蒸馏等优化技术的实践经验。
熟悉AI工作负载的安全最佳实践(SecMLOps)。
对主流开源大模型(如Llama系列, Qwen等)的部署和微调有实践经验。
查看全部

工作地点

北京昌平区昆仑数智科技有限责任公司

认证资质

营业执照信息

职位发布者

刘宁/人力资源

刚刚活跃
立即沟通
公司Logo安徽晶奇网络科技股份有限公司
安徽晶奇网络科技股份有限公司成立于2006年,总部现坐落于合肥高新技术开发区,拥有8家子公司,7家分公司,业务遍布安徽、北京、广东、海南、贵州、云南、黑龙江、青海等30个省市。公司以民政和卫生领域的信息化为基础,围绕“防、治、养”为大健康产业链中的服务对象提供智慧医疗、智慧医保、智慧民政、智慧健康养老、智慧能源的整体解决方案、数据挖掘以及数据安全服务。 2017年成为国家级智慧健康养老试点示范企业 2018年入选智慧健康养老产品及服务推广目录、获批安徽省院士工作站 2019年评为安徽省企业技术中心、省级专精特新企业 2020年评为安徽省商标品牌示范企业 2021年获得安徽省专精特新冠军企业荣誉称号 2022年评为安徽省大数据企业 2023年获得长三角百家品牌软件企业 2024年承建项目选登“2023年度社会救助领域创新实践优秀案例”
公司主页