AI Infra SRE

2-2.5万·13薪

武汉武昌区
3-5年
本科
全职
招1人

职位描述

人工智能计算机软件云计算/大数据

Canopy Wave（INC）2024 年诞生于美国硅谷，是专注于全球分布式 NVIDIA GPU 集群与开源大模型推理服务的技术领军企业。我们构建的低延迟、高可靠推理平台，已支撑 GLM-4.7、DeepSeek V3.2 等千亿级参数模型的规模化 API 服务，为全球开发者与企业提供 “算力即服务” 的核心支撑。2025 年武汉全资子公司（武汉有树科技）落地，作为亚太区核心研发中心，正全力打造 “99.99% 高可用” 的 AI Infra 体系 —— 现诚邀 SRE 技术专家加入，成为 AI 算力基础设施的 “稳定性守护者”。
🚀 岗位定位：推理平台的智能运维架构师
你将主导设计并实现覆盖 GPU 集群、推理服务、模型调度、KV Cache、T
ken 流水线的全栈可观测体系，打造 “秒级发现、分钟级定位、自动恢复” 的智能运维系统，直接决定大模型推理平台的稳定性与可用性，成为支撑全球客户业务的核心技术支柱。
📋 核心职责
设计并落地 AI 推理平台专属的可观测性架构，全面覆盖指标（Metrics）、日志（Logs）、链路追踪（Traces）、事件（Events）四大支柱，构建全链路可追溯体系；o开发 GPU 与 LLM 感知的核心监控指标，包括 Token 吞吐率（input/output tokens/s）、P99 端到端延迟、GPU 显存碎片率、SM 利用率、NVLink 带宽、KV Cache 命中率、动态批处理效率、请求排队深度等；
构建智能告警系统，基于动态基线（Dynamic Thresholding）与异常检测（Anomaly Detection）算法，大幅减少误报 / 漏报，实现精准告警；
实现根因分析（RCA）工具链，支持从 API 层→推理引擎（vLLM/TensorRT-LLM）→GPU 驱动的跨层下钻，快速定位性能瓶颈与故障根源；
与 Infra、QA 团队深度协作，将 SLO/SLI 定义嵌入 CI/CD 流程，推动 “质量左移”，从源头保障系统稳定性；
优化日志采集与存储架构，实现冷热数据分层管理，在保证可追溯性的前提下降低存储成本，提升查询效率。
🎯 职位要求（硬核技能，实战为王）
计算机或相关专业本科及以上学历，3 年以上 SRE/DevOps/Platform Engineering 实战经验；
精通 Prometheus+Grafana 生态，熟悉 Thanos/Mimir/VictoriaMetrics 等长期存储方案，能独立设计大规模指标监控体系；
熟练使用分布式追踪系统（Jaeger/Tempo/Zipkin），具备定制 LLM 推理链路 span 的实战能力；
掌握日志系统（Loki/ELK/Splunk），有大规模日志采集、过滤、分析与存储优化经验；
精通 Python 或 Go 编程语言，能独立开发监控插件、告警处理器、自动化运维脚本；
深入理解 Kubernetes 核心原理，了解 Operator、Custom Metrics、Vertical Pod Autoscaler 等进阶特性；
具备扎实的 Linux 系统与网络调试能力，熟练使用 tcpdump、perf、eBPF 等工具排查底层问题；
对 SLO/SLI/SLO Burn Rate 有实战经验，能基于业务场景定义合理的稳定性指标与保障方案。
✨ 加分项（具备 1 项及以上优先录用）
有大模型推理平台（vLLM/Triton/TGI）监控或运维经验，熟悉推理场景核心痛点；
熟悉 NVIDIA DCGM/NVML 工具，能采集 GPU 底层硬件指标并进行性能分析；
了解 OpenTelemetry（OTel）规范并有落地经验，能构建标准化可观测性数据链路；
有时序异常检测算法（如 Prophet、LSTM-AE）应用经验，能优化告警准确性；
参与过高可用推理平台的 SLA 保障，有大规模 GPU 集群运维实战案例；
在 GitHub 有开源可观测性工具贡献或相关技术博客输出。
📌 我们为你提供
薪酬回报：行业极具竞争力的 Base 薪资 + 绩效奖金 + 年度调薪机会；
技术成长：全栈接触大模型推理平台可观测性核心技术，实操 H100/A100 大规模 GPU 集群，与硅谷、国内顶尖 SRE/Infra 专家深度协作，每周技术分享 + 顶会参会支持；
工作环境：技术驱动的扁平化管理，无层级沟通壁垒，自主决策技术方案，弹性工作制，专注技术创新；
福利保障：五险一金 + 补充商业保险、定期体检、GPU 算力资源支持、带薪年假 15 天起、节日福利、团队建设基金、办公设备按需配置；
工作地点：武汉（核心研发中心）/ 硅谷（远程协作机会）。
📮 投递方式
发送个人简历至：************************
邮件主题格式：AI Infra SRE - 姓名 - 工作年限 - 核心技能
如果你渴望在 AI Infra 赛道深耕，用可观测性技术守护核心算力平台的稳定运行，Canopy Wave 将为你提供无天花板的成长舞台 —— 期待与你一起，构建 “秒级发现、分钟级定位” 的智能运维体系！

工作地点

武汉市-武昌区-秦园路38号

完善一份简历
1736万+企业在线搜索，780万+海量职位精准推荐

相似职位

查看更多相似职位

职位发布者

王女士/HRBP

昨日活跃

立即沟通

武汉有树科技有限公司

武汉有树科技有限公司是 Canopy Wave INC在中国设立的全资子公司，成立于 2025年，致力于为全球客户提供高性能 AI算力基础设施与技术服务支持。母公司 Canopy Wave INC总部位于美国硅谷，是一家专注于构建、管理和运维 NVIDIA GPU集群的技术型企业，服务涵盖 AI模型训练、推理、渲染、私有云部署及 GPU解决方案等多个前沿应用场景。武汉作为公司在亚太地区的重要战略节点，承担销售拓展、客户服务、技术支持等关键职能。我们希望通过本地团队的建设，为全球客户提供更高效、更敏捷的专业服务。加入武汉有树，你不仅能深入了解 AI与云计算技术的实际应用，还能与来自硅谷的全球团队协作成长，拓展视野、积累经验，收获广阔的发展空间。我们期待有热情、有责任感的你加入，与我们一起走在算力时代的前沿！

公司主页

关于我们: 公司介绍; 联系我们; 诚聘英才

产品与服务: 人才招聘; 企业招聘

使用与帮助: 账号注销; 意见反馈; 发票制度; 防骗指南; 法律协议; 资质公示

智联招聘更懂你的价值

智联app小程序官方微信企业版APP

京ICP备12025925号京ICP证010207号

京公网安备 11010502059392号人力资源许可证:1101051996081号

网上有害信息举报专区违法不良信息举报电话:400-885-9898 关爱未成年举报热线:400-885-9898-3

朝阳区人力资源与社会保障局监督电话

网络110报警服务电子营业执照