岗位职责:
1)监控平台建设与研发
1、负责生产环境监控平台的架构设计与核心功能开发:采集、存储、查询、可视化、告警、事件中心、通知通道等。
2、推动全栈可观测性(Metrics/Logs/Traces/Events)能力建设,提供统一数据模型与标签规范(多租户、分环境、分业务线)。
3、建设监控接入体系:SDK/Agent/Exporter 标准化,支持容器、虚拟机、物理机、数据库、中间件及业务服务。
4、持续优化监控平台性能与可靠性:高并发查询、告警高可用、数据完整性、弹性扩缩容、成本优化(存储分层、压缩、降采样等)。
2)告警体系治理与SRE化
1、建设告警标准与分级体系:告警策略、阈值、窗口、抑制、依赖、升级、值班联动。
2、推动 SLO/SLI 与错误预算落地,告警从“阈值驱动”向“用户体验驱动/业务影响驱动”演进。
3、告警降噪与收敛:去重、聚合、抑制、关联、动态阈值、异常检测;持续减少无效告警与误报漏报。
3)智能化方向规划(LLM/智能运维)
1、规划并落地基于 LLM 的智能告警与分析能力,包括但不限于:
a、告警解释与上下文生成(将指标/日志/变更/拓扑自动编排成可读报告)
b、相似事件聚类与历史复用(自动推荐处理步骤/Runbook)
c、多信号关联分析与初步根因定位(跨指标/日志/Trace/变更/发布)
d、值班Copilot:辅助排障问答、查询引导、自动生成复盘材料
2、设计可控、可回溯、可评估的智能系统:提示词模板、工具调用、权限、审计、灰度与评估体系(准确率、召回率、MTTR 改善)。
4)协作与推动
1、与业务研发、SRE、基础设施/容器/DBA 协作制定监控接入与治理规范,推动关键系统监控“覆盖率、正确率、可用性”提升。
2、输出平台文档、接入手册、监控模板与最佳实践,组织培训与落地推进。
任职要求:
必备能力
1、本科及以上,计算机相关专业;3年以上监控/平台/后端研发经验(优秀者可放宽)。
2、扎实的后端工程能力:至少精通一种语言(Go / Java / Python 等),具备高并发、分布式系统设计与排障能力。
3、熟悉可观测性体系:指标、日志、链路追踪、告警策略设计与治理方法。
4、熟悉主流监控技术栈中的一种或多种:Prometheus/Alertmanager、Grafana、Loki/ELK、OpenTelemetry/Jaeger、VictoriaMetrics 等(不限于这些)。
5、熟悉 Linux、TCP/IP、常见中间件与数据库(Nginx、Redis、MySQL、Kafka 等)运行与监控要点。
6、具备较强的问题定位能力与工程推进能力,能与多团队协作闭环。
加分项
1、有大型生产环境监控平台建设经验(多集群、多租户、大规模采集与告警)。
2、有告警降噪、动态阈值、异常检测、事件关联、RCA 平台相关项目经验。
3、熟悉 Kubernetes/容器可观测性,具备 Operator/CRD 或云原生平台经验。
4、有LLM落地经验:RAG、工具调用(function calling)、评测体系、权限与审计、数据脱敏等。
5、熟悉 CMDB/ITSM/变更系统与监控联动(变更窗口抑制、发布关联、自动回滚触发等)。