登录/注册
我要招人
400-885-9898
首页
职位推荐
城市频道
政企招聘
校园招聘
高端职位
海外招聘
测评及培训
职Q社区
更新于 今天
APP
举报
AI Infra SRE
2-2.5万·13薪
武汉
武昌区
3-5年
本科
全职
招1人
收藏
立即投递
职位描述
人工智能
计算机软件
云计算/大数据
Canopy Wave(INC)2024 年诞生于美国硅谷,是专注于全球分布式 NVIDIA GPU 集群与开源大模型推理服务的技术领军企业。我们构建的低延迟、高可靠推理平台,已支撑 GLM-4.7、DeepSeek V3.2 等千亿级参数模型的规模化 API 服务,为全球开发者与企业提供 “算力即服务” 的核心支撑。2025 年武汉全资子公司(武汉有树科技)落地,作为亚太区核心研发中心,正全力打造 “99.99% 高可用” 的 AI Infra 体系 —— 现诚邀 SRE 技术专家加入,成为 AI 算力基础设施的 “稳定性守护者”。
🚀 岗位定位:推理平台的智能运维架构师
你将主导设计并实现覆盖 GPU 集群、推理服务、模型调度、KV Cache、T
ken 流水线的全栈可观测体系,打造 “秒级发现、分钟级定位、自动恢复” 的智能运维系统,直接决定大模型推理平台的稳定性与可用性,成为支撑全球客户业务的核心技术支柱。
📋 核心职责
设计并落地 AI 推理平台专属的可观测性架构,全面覆盖指标(Metrics)、日志(Logs)、链路追踪(Traces)、事件(Events)四大支柱,构建全链路可追溯体系;o开发 GPU 与 LLM 感知的核心监控指标,包括 Token 吞吐率(input/output tokens/s)、P99 端到端延迟、GPU 显存碎片率、SM 利用率、NVLink 带宽、KV Cache 命中率、动态批处理效率、请求排队深度等;
构建智能告警系统,基于动态基线(Dynamic Thresholding)与异常检测(Anomaly Detection)算法,大幅减少误报 / 漏报,实现精准告警;
实现根因分析(RCA)工具链,支持从 API 层→推理引擎(vLLM/TensorRT-LLM)→GPU 驱动的跨层下钻,快速定位性能瓶颈与故障根源;
与 Infra、QA 团队深度协作,将 SLO/SLI 定义嵌入 CI/CD 流程,推动 “质量左移”,从源头保障系统稳定性;
优化日志采集与存储架构,实现冷热数据分层管理,在保证可追溯性的前提下降低存储成本,提升查询效率。
🎯 职位要求(硬核技能,实战为王)
计算机或相关专业本科及以上学历,3 年以上 SRE/DevOps/Platform Engineering 实战经验;
精通 Prometheus+Grafana 生态,熟悉 Thanos/Mimir/VictoriaMetrics 等长期存储方案,能独立设计大规模指标监控体系;
熟练使用分布式追踪系统(Jaeger/Tempo/Zipkin),具备定制 LLM 推理链路 span 的实战能力;
掌握日志系统(Loki/ELK/Splunk),有大规模日志采集、过滤、分析与存储优化经验;
精通 Python 或 Go 编程语言,能独立开发监控插件、告警处理器、自动化运维脚本;
深入理解 Kubernetes 核心原理,了解 Operator、Custom Metrics、Vertical Pod Autoscaler 等进阶特性;
具备扎实的 Linux 系统与网络调试能力,熟练使用 tcpdump、perf、eBPF 等工具排查底层问题;
对 SLO/SLI/SLO Burn Rate 有实战经验,能基于业务场景定义合理的稳定性指标与保障方案。
✨ 加分项(具备 1 项及以上优先录用)
有大模型推理平台(vLLM/Triton/TGI)监控或运维经验,熟悉推理场景核心痛点;
熟悉 NVIDIA DCGM/NVML 工具,能采集 GPU 底层硬件指标并进行性能分析;
了解 OpenTelemetry(OTel)规范并有落地经验,能构建标准化可观测性数据链路;
有时序异常检测算法(如 Prophet、LSTM-AE)应用经验,能优化告警准确性;
参与过高可用推理平台的 SLA 保障,有大规模 GPU 集群运维实战案例;
在 GitHub 有开源可观测性工具贡献或相关技术博客输出。
📌 我们为你提供
薪酬回报:行业极具竞争力的 Base 薪资 + 绩效奖金 + 年度调薪机会;
技术成长:全栈接触大模型推理平台可观测性核心技术,实操 H100/A100 大规模 GPU 集群,与硅谷、国内顶尖 SRE/Infra 专家深度协作,每周技术分享 + 顶会参会支持;
工作环境:技术驱动的扁平化管理,无层级沟通壁垒,自主决策技术方案,弹性工作制,专注技术创新;
福利保障:五险一金 + 补充商业保险、定期体检、GPU 算力资源支持、带薪年假 15 天起、节日福利、团队建设基金、办公设备按需配置;
工作地点:武汉(核心研发中心)/ 硅谷(远程协作机会)。
📮 投递方式
发送个人简历至:************************
邮件主题格式:AI Infra SRE - 姓名 - 工作年限 - 核心技能
如果你渴望在 AI Infra 赛道深耕,用可观测性技术守护核心算力平台的稳定运行,Canopy Wave 将为你提供无天花板的成长舞台 —— 期待与你一起,构建 “秒级发现、分钟级定位” 的智能运维体系!
工作地点
武汉市-武昌区-秦园路38号
查看地图
完善一份简历
1736万+企业在线搜索,780万+海量职位精准推荐
完善简历 涨薪36%
相似职位
java架构师
2-3.5万
武汉
- 洪山
武汉慧猎达网络科技有限公司
前端架构师
2.5-3.5万
武汉
- 洪山
武汉慧猎达网络科技有限公司
企业架构工程师
1.5-3万
武汉
- 蔡甸
东风汽车
智能驾驶系统架构设计
1.5-2.5万
武汉
- 蔡甸
东风汽车
后端架构师
2.5-3.5万
武汉
- 江夏
噢易云计算
架构分析岗(技术方向)
1-2万
武汉
- 江夏
九江银行
查看更多相似职位
热门城市推荐
北京
上海
深圳
广州
天津
成都
杭州
武汉
大连
长春
南京
济南
青岛
苏州
沈阳
西安
郑州
长沙
重庆
哈尔滨
无锡
宁波
福州
厦门
石家庄
合肥
惠州
太原
南昌
昆明
热门职位推荐
电工招聘
阿里招聘
安全员招聘
中国银行招聘
包装工招聘
服务员招聘
货运司机招聘
普工招聘
保洁招聘
保安招聘
骑手招聘
吊车司机招聘
地铁安检招聘
车工招聘
技工招聘
驾驶招聘
必胜客招聘
厨师招聘
博世招聘
木工招聘
危化品司机
核力/火力工程师
珠宝/收藏品鉴定
电力工程师
仪器/仪表工程师
验光师
施工安全员
房产销售
供应链经理
通信研发工程师
热门公司推荐
霸王茶姬招聘
肯德基招聘
顺丰招聘
美团招聘
京东招聘
饿了么招聘
比亚迪招聘
中国一汽招聘
北京汽车招聘
蔚来招聘
东风汽车招聘
长城汽车招聘
奇瑞汽车招聘
理想汽车招聘
长鑫存储招聘
天江药业招聘
蓝月亮招聘
安踏招聘
TCL招聘
海信招聘
联想招聘
海康威视招聘
宁德时代招聘
中兴招聘
新松招聘
京东方招聘
申通招聘
圆通招聘
中通招聘
百世物流招聘
德邦物流招聘
麦当劳招聘
星巴克招聘
海底捞招聘
蜜雪冰城招聘
瑞幸招聘
雀巢招聘
腾讯招聘
百度招聘
快手招聘
字节跳动招聘
新华网招聘
小米招聘
招商银行招聘
中信银行招聘
北京银行招聘
兴业银行招聘
交通银行招聘
建发集团招聘
中国移动招聘
中国联通招聘
中国电信招聘
中粮集团招聘
国药控股招聘
中广核招聘
中国船舶招聘
强生中国招聘
汇丰中国招聘
宜家招聘
立邦中国招聘
伊利招聘
青岛啤酒招聘
京港地铁招聘
宝马招聘
小鹏汽车招聘
华为招聘
特斯拉招聘
吉利招聘
奔驰招聘
海尔招聘
美的招聘
京东方招聘
施耐德电气招聘
德邦物流招聘
职位发布者
王女士/HRBP
昨日活跃
立即沟通
王女士 / HRBP
Hi~ 对职位感兴趣吗?快来下载智联APP和我聊聊吧,还能在线视频面试,方便又安心~
武汉有树科技有限公司
云计算/大数据,云计算/大数据,IT服务,通信/网络设备
20-99人
不需要融资
武汉有树科技有限公司是 Canopy Wave INC在中国设立的全资子公司,成立于 2025年,致力于为全球客户提供高性能 AI算力基础设施与技术服务支持。母公司 Canopy Wave INC总部位于美国硅谷,是一家专注于构建、管理和运维 NVIDIA GPU集群的技术型企业,服务涵盖 AI模型训练、推理、渲染、私有云部署及 GPU解决方案等多个前沿应用场景。武汉作为公司在亚太地区的重要战略节点,承担销售拓展、客户服务、技术支持等关键职能。我们希望通过本地团队的建设,为全球客户提供更高效、更敏捷的专业服务。加入武汉有树,你不仅能深入了解 AI与云计算技术的实际应用,还能与来自硅谷的全球团队协作成长,拓展视野、积累经验,收获广阔的发展空间。我们期待有热情、有责任感的你加入,与我们一起走在算力时代的前沿!
公司主页