职位描述
系统运维云运维KubernetesDockerPythonShellAI集群运维DEVOPS落地团队管理
工作职责:
1. 负责公司整体IT运维体系的规划与建设,涵盖AI训练集群、业务系统、数据中心等全链路基础设施的稳定性保障。
2. 主导制定运维SLA标准与应急预案,通过自动化工具与监控体系实现故障的快速定位与恢复,确保系统可用性达到行业领先水平。
3. 统筹AI算力资源的调度与成本优化,结合业务需求动态调整资源配置,提升资源利用率。
4. 带领运维团队建立标准化流程与知识库,推动DevOps文化落地,提升团队整体交付效率。
5. 对接业务部门需求,提供技术支持与解决方案,保障AI模型训练、推理等核心业务的顺畅运行。
任职要求:
1. 本科及以上学历,计算机相关专业,8年以上IT运维经验,其中3年以上团队管理经验。
2. 精通Linux系统、网络架构及存储技术,具备大规模分布式系统(如K8s、Docker)的运维实战经验。
3. 熟悉AI基础设施(GPU集群、分布式存储)的管理与优化,有AI企业运维经验者优先。
4. 掌握自动化运维工具(如Ansible、Prometheus),具备脚本开发能力(Python/Shell)。
5. 具备较强的问题分析与解决能力,能独立应对复杂系统故障与突发事件。
6. 拥有良好的跨部门沟通能力与团队协作精神,能推动技术方案落地与流程优化。
1. 负责公司整体IT运维体系的规划与建设,涵盖AI训练集群、业务系统、数据中心等全链路基础设施的稳定性保障。
2. 主导制定运维SLA标准与应急预案,通过自动化工具与监控体系实现故障的快速定位与恢复,确保系统可用性达到行业领先水平。
3. 统筹AI算力资源的调度与成本优化,结合业务需求动态调整资源配置,提升资源利用率。
4. 带领运维团队建立标准化流程与知识库,推动DevOps文化落地,提升团队整体交付效率。
5. 对接业务部门需求,提供技术支持与解决方案,保障AI模型训练、推理等核心业务的顺畅运行。
任职要求:
1. 本科及以上学历,计算机相关专业,8年以上IT运维经验,其中3年以上团队管理经验。
2. 精通Linux系统、网络架构及存储技术,具备大规模分布式系统(如K8s、Docker)的运维实战经验。
3. 熟悉AI基础设施(GPU集群、分布式存储)的管理与优化,有AI企业运维经验者优先。
4. 掌握自动化运维工具(如Ansible、Prometheus),具备脚本开发能力(Python/Shell)。
5. 具备较强的问题分析与解决能力,能独立应对复杂系统故障与突发事件。
6. 拥有良好的跨部门沟通能力与团队协作精神,能推动技术方案落地与流程优化。
工作地点
天津河东区智运大厦20层2004

认证资质
营业执照信息

更新于 今天



