更新于 今天

AI Infra SRE

2-2.5万·13薪
  • 武汉武昌区
  • 3-5年
  • 本科
  • 全职
  • 招1人

职位描述

人工智能计算机软件云计算/大数据
Canopy Wave(INC)2024 年诞生于美国硅谷,是专注于全球分布式 NVIDIA GPU 集群与开源大模型推理服务的技术领军企业。我们构建的低延迟、高可靠推理平台,已支撑 GLM-4.7、DeepSeek V3.2 等千亿级参数模型的规模化 API 服务,为全球开发者与企业提供 “算力即服务” 的核心支撑。2025 年武汉全资子公司(武汉有树科技)落地,作为亚太区核心研发中心,正全力打造 “99.99% 高可用” 的 AI Infra 体系 —— 现诚邀 SRE 技术专家加入,成为 AI 算力基础设施的 “稳定性守护者”。
🚀 岗位定位:推理平台的智能运维架构师
你将主导设计并实现覆盖 GPU 集群、推理服务、模型调度、KV Cache、T
ken 流水线的全栈可观测体系,打造 “秒级发现、分钟级定位、自动恢复” 的智能运维系统,直接决定大模型推理平台的稳定性与可用性,成为支撑全球客户业务的核心技术支柱。
📋 核心职责
设计并落地 AI 推理平台专属的可观测性架构,全面覆盖指标(Metrics)、日志(Logs)、链路追踪(Traces)、事件(Events)四大支柱,构建全链路可追溯体系;o开发 GPU 与 LLM 感知的核心监控指标,包括 Token 吞吐率(input/output tokens/s)、P99 端到端延迟、GPU 显存碎片率、SM 利用率、NVLink 带宽、KV Cache 命中率、动态批处理效率、请求排队深度等;
构建智能告警系统,基于动态基线(Dynamic Thresholding)与异常检测(Anomaly Detection)算法,大幅减少误报 / 漏报,实现精准告警;
实现根因分析(RCA)工具链,支持从 API 层→推理引擎(vLLM/TensorRT-LLM)→GPU 驱动的跨层下钻,快速定位性能瓶颈与故障根源;
与 Infra、QA 团队深度协作,将 SLO/SLI 定义嵌入 CI/CD 流程,推动 “质量左移”,从源头保障系统稳定性;
优化日志采集与存储架构,实现冷热数据分层管理,在保证可追溯性的前提下降低存储成本,提升查询效率。
🎯 职位要求(硬核技能,实战为王)
计算机或相关专业本科及以上学历,3 年以上 SRE/DevOps/Platform Engineering 实战经验;
精通 Prometheus+Grafana 生态,熟悉 Thanos/Mimir/VictoriaMetrics 等长期存储方案,能独立设计大规模指标监控体系;
熟练使用分布式追踪系统(Jaeger/Tempo/Zipkin),具备定制 LLM 推理链路 span 的实战能力;
掌握日志系统(Loki/ELK/Splunk),有大规模日志采集、过滤、分析与存储优化经验;
精通 Python 或 Go 编程语言,能独立开发监控插件、告警处理器、自动化运维脚本;
深入理解 Kubernetes 核心原理,了解 Operator、Custom Metrics、Vertical Pod Autoscaler 等进阶特性;
具备扎实的 Linux 系统与网络调试能力,熟练使用 tcpdump、perf、eBPF 等工具排查底层问题;
对 SLO/SLI/SLO Burn Rate 有实战经验,能基于业务场景定义合理的稳定性指标与保障方案。
✨ 加分项(具备 1 项及以上优先录用)
有大模型推理平台(vLLM/Triton/TGI)监控或运维经验,熟悉推理场景核心痛点;
熟悉 NVIDIA DCGM/NVML 工具,能采集 GPU 底层硬件指标并进行性能分析;
了解 OpenTelemetry(OTel)规范并有落地经验,能构建标准化可观测性数据链路;
有时序异常检测算法(如 Prophet、LSTM-AE)应用经验,能优化告警准确性;
参与过高可用推理平台的 SLA 保障,有大规模 GPU 集群运维实战案例;
在 GitHub 有开源可观测性工具贡献或相关技术博客输出。
📌 我们为你提供
薪酬回报:行业极具竞争力的 Base 薪资 + 绩效奖金 + 年度调薪机会;
技术成长:全栈接触大模型推理平台可观测性核心技术,实操 H100/A100 大规模 GPU 集群,与硅谷、国内顶尖 SRE/Infra 专家深度协作,每周技术分享 + 顶会参会支持;
工作环境:技术驱动的扁平化管理,无层级沟通壁垒,自主决策技术方案,弹性工作制,专注技术创新;
福利保障:五险一金 + 补充商业保险、定期体检、GPU 算力资源支持、带薪年假 15 天起、节日福利、团队建设基金、办公设备按需配置;
工作地点:武汉(核心研发中心)/ 硅谷(远程协作机会)。
📮 投递方式
发送个人简历至:************************
邮件主题格式:AI Infra SRE - 姓名 - 工作年限 - 核心技能
如果你渴望在 AI Infra 赛道深耕,用可观测性技术守护核心算力平台的稳定运行,Canopy Wave 将为你提供无天花板的成长舞台 —— 期待与你一起,构建 “秒级发现、分钟级定位” 的智能运维体系!

工作地点

武汉市-武昌区-秦园路38号

职位发布者

王女士/HRBP

昨日活跃
立即沟通
公司Logo武汉有树科技有限公司
武汉有树科技有限公司是 Canopy Wave INC在中国设立的全资子公司,成立于 2025年,致力于为全球客户提供高性能 AI算力基础设施与技术服务支持。母公司 Canopy Wave INC总部位于美国硅谷,是一家专注于构建、管理和运维 NVIDIA GPU集群的技术型企业,服务涵盖 AI模型训练、推理、渲染、私有云部署及 GPU解决方案等多个前沿应用场景。武汉作为公司在亚太地区的重要战略节点,承担销售拓展、客户服务、技术支持等关键职能。我们希望通过本地团队的建设,为全球客户提供更高效、更敏捷的专业服务。加入武汉有树,你不仅能深入了解 AI与云计算技术的实际应用,还能与来自硅谷的全球团队协作成长,拓展视野、积累经验,收获广阔的发展空间。我们期待有热情、有责任感的你加入,与我们一起走在算力时代的前沿!
公司主页