更新于 1月17日

监控开发工程师

1.6-2.5万
  • 深圳南山区
  • 科技园
  • 3-5年
  • 本科
  • 全职
  • 招1人

职位描述

PythonPrometheusGrafanaELK计算机软件互联网
岗位职责:
1、平台设计搭建:负责设计、搭建并持续优化公司的监控(Prometheus/Grafana)、日志(ELK/Loki)和告警(Alertmanager)核心平台;
2、日常运维保障:保障监控平台自身的高可用性与性能,管理数据的采集、存储、查询和可视化;
3、告警体系治理:建立智能、精准、分级的告警系统,通过优化规则、路由和抑制机制,有效减少告警噪音,确保关键问题能被即时响应;
4、规范制定赋能:制定并推广公司级的可观测性接入规范与最佳实践,为各业务团队提供SDK、工具支持和技术指导,提升整体排障效率;
5、前沿技术探索:持续跟踪可观测性领域的新技术(如OpenTelemetry、持续剖析等),评估并引入合适的技术以解决实际痛点。
任职要求:
1、技术栈:
(1)精通 Prometheus(数据模型、PromQL、Exporter开发)和 Grafana 仪表盘开发;
(2)熟练掌握至少一种主流日志系统,如 ELK Stack 或 Loki;
(3)精通至少一门编程语言(Go 或 Python),并具备良好的编码习惯;
(4)熟悉 Linux 操作系统及网络基础知识,能进行日常的性能排查;
(5)具备强烈的“配置即代码”理念,熟练使用 Git 管理所有配置。
2、核心能力:
(1)具备独立设计并实施一套完整监控解决方案的能力;
(2)深刻理解监控、日志、追踪在问题定位中的不同作用,具备系统性思维;
(3)对告警治理有深刻理解,追求告警的准确性和有效性;
(4)优秀的沟通协作能力,能主动推动问题闭环,并乐于赋能团队。
3、加分项:
(1)有在容器化(Docker)和 Kubernetes 环境中部署和管理可观测性栈的经验;
(2)熟悉 OpenTelemetry 标准,有相关实践;
(3)了解公有云(如阿里云、AWS、腾讯云)的监控服务并进行过集成;
(4)有SRE相关经验或对系统稳定性、容量规划有深入理解。

工作地点

深圳南山区科兴科学园B2-1703

职位发布者

黄苗茹/hr专员

三日内活跃
立即沟通
公司Logo深圳永安在线科技有限公司
【我们是谁?】深圳永安在线科技有限公司,于2017年1月成立,总部设在深圳,是一家以业务情报能力为核心,提供反欺诈基础情报相关产品与解决方案的创新型安全公司。公司核心团队成员曾在腾讯、猎豹等多家互联网企业安全部门就职,具有丰富的业务安全经验和情报分析能力,是国内最早一批从事业务安全研究与应用方面的专家人员。永安在线专注于业务安全领域,产品涉及业务安全方面的风险数据标签类、风险感知类、合规检测类、业务安全咨询与测评等方面的基础情报类产品。目前,已经为腾讯、百度、阿里、华为等国内一线互联网企业提供了优质的安全威胁情报服务。【加入我们】我们的团队大咖云集,吸引了来自情报分析、数据分析、业务风控、逆向、反欺诈等领域的资深专家,拥有多年黑产研究从业经验。作为一支以技术为驱动的团队,我们推崇在开放、高效的环境中学习、激励和成长,希望能找到志同道合的小伙伴与我们并肩作战。【福利待遇】超舒适的办公环境和轻松氛围鼓励安慰师—卡妹铛铛超具竞争力的薪资待遇季度周边游、年度国外游每月团建聚会停不下来每周一次下午茶放松心情节日福利、生日礼物、新婚生子礼金上班时间:周一到周五 9:30-12:00 14:00-18:30公司官网:www.yazx.com
公司主页