该职位已失效,看看其他机会吧

AI运维工程师

1.5-2.5万
  • 成都武侯区
  • 3-5年
  • 硕士
  • 全职
  • 招5人

职位描述

服务器运维系统运维云计算/大数据
一、职位描述
致力于打造高性能AI计算平台,招募一名兼具AI基础设施运维能力与全栈开发潜力的工程师。您将深度参与AI算力集群管理、远程运维体系构建及研发协作全流程,推动AI技术的高效落地。我们提供给您参与AI基础设施从0到1建设的核心机会,以及与顶尖算法团队协作,深入AI工业化落地场景。
二、岗位职责
1. 负责英伟达GPU集群及华为昇腾910系列AI服务器的运维管理,包括硬件监控、驱动适配、性能调优及故障诊断;
2. 搭建基于混合云架构的远程运维平台,实现跨地域AI算力资源的统一调度与自动化运维;
3. 配合研发团队完成AI训练/推理系统的开发测试,设计CI/CD流水线,优化模型部署效率;
4. 构建运维监控链,构建从硬件层到应用层的全栈可观测性体系;
5. 研究AI算力集群的能效优化方案,制定服务器资源弹性伸缩策略。
三、任职要求
(一)必备条件
1. 硕士及以上学历,计算机/电子工程/数学等相关专业;
2. 3年以上Linux系统运维/DevOps经验,精通Shell/Python/Go至少一门语言;
3. 熟悉Docker/K8s生态,有大规模集群管理经验;
4. 掌握监控工具链(Prometheus/Grafana/ELK等),具备全链路问题定位能力;
5. 了解主流AI框架(TensorFlow/PyTorch)及计算资源管理工具(Kubeflow/Slurm);
6. 对网络、存储、分布式系统有深入理解,能独立设计高可用架构。
(二)加分项
1. 有AI大模型部署优化建设经验;
2. 熟悉云计算平台(AWS/Azure/阿里云)AI服务架构;
3. 持有K8s/CKA/Ceph等认证证书;
4. 发表过运维/系统优化相关技术文章或开源项目贡献者。
查看全部

工作地点

成都武侯区天府软件园-G5楼2002室

认证资质

营业执照信息

职位发布者

邓小华/人事经理

三日内活跃
立即沟通
公司Logo甘肃省华本力合人工智能科技有限公司
1,华本力合公司系初创公司。远景:致力于医学人工智能,拟定开发一款基于人工智能的超级医生系统,设立互联网医院。研发医疗传感器。实现:医学,医疗诊断,医患服务,康养等大健康领域的人工智能化,服务人类,改变传统的医学,医疗模式, 2,公司为核心团队,提供30%的股份期权,优厚的薪资; 3,我们期待5年左右成为,有一定影响力,商业模式清晰,管理规范,远景清晰的上市公司。 4,只要你是人才,我们就一起,梧桐树,凤凰鸟,展望未来。
公司主页