更新于 今天

SRE运维工程师(自动化运维方向)

1.2-1.8万
  • 杭州上城区
  • 3-5年
  • 本科
  • 全职
  • 招1人

职位描述

DAAS数据链路产品云计算/大数据
职位要求:
1.主导健康云数据即服务(DaaS)平台全链路可靠性体系搭建与优化,负责数据采集、传输、存储、计算、服务化全流程的高可用保障,牵头制定SLA标准并落地执行,确保核心服务可用性。
2.主导DaaS平台重大故障、复杂问题的应急响应与根因分析,输出可落地的优化方案,推动问题闭环,沉淀故障处理最佳实践,提升团队应急处置能力。
3. 牵头DaaS平台性能优化与容量规划,针对数据吞吐量、查询延迟、并发量等核心指标开展专项优化,解决数据倾斜、链路瓶颈等复杂技术问题,支撑业务高并发场景需求。
4.主导DaaS平台可靠性自动化建设,设计并落地监控、告警、熔断、降级、自愈等核心能力,基于Python/Go开发自动化运维工具与平台,推动运维模式从被动响应向主动预防、智能化运维转型。
5. 深入理解DaaS业务场景与数据服务需求,配合技术解决方案落地交付,参与平台架构迭代、技术选型,规避潜在可靠性风险。
6. 负责团队技术沉淀与能力提升,主导可靠性技术规范、运维手册制定,推动团队Daas技术水平提升。
7. 跟踪DaaS、数据可靠性、AIOps等领域前沿技术趋势,引入行业最佳实践,结合业务实际开展技术创新,提升平台可靠性与运维效率。
任职要求:
1.精通Linux/Unix操作系统,具备深厚的系统内核、网络协议(TCP/IP)、分布式系统理论基础,能独立排查复杂的系统、网络、数据链路故障。
2.深入理解DaaS平台架构与核心流程,熟悉数据采集(Flume、Logstash)、传输(Kafka、RocketMQ)、存储(HDFS、S3、ClickHouse)、计算(Spark、Flink)、服务化(API网关)等核心组件的可靠性运维方法。
3. 具备丰富的重大故障应急处置、根因分析经验,能主导复杂技术问题的排查与解决,有大规模DaaS平台或数据中台可靠性建设经验者优先。
4.精通监控告警体系搭建,熟悉Prometheus、Grafana、ELK等监控日志工具,能设计合理的监控指标、告警策略,实现故障提前预警与快速定位。
5. 具备强烈的责任心、技术攻坚能力与跨团队协作能力,有良好的沟通表达与文档撰写能力,能主导技术方案的落地与推广。
6. 英语CET-4及以上,能熟练查阅英文技术文档,跟踪国际前沿技术动态。

工作地点

杭州上城区中国元谷·杭港科技大厦

职位发布者

杨女士/人事经理

昨日活跃
立即沟通
公司Logo智联猎头
智联猎头作为智联招聘旗下品牌,以满足企业中高端岗位的人才招聘需求为出发点,整合全球优质资源,覆盖数字经济、新一代信息技术、人工智能、金融、电子信息、装备制造、生物医药与健康、房地产/建筑等数十个行业,拥有规模庞大、覆盖面广的交付团队,致力于向企业输出专业化的招聘解决方案。智联猎头目前拥有卓聘平台服务、招聘流程外包服务、高端人才猎寻服务三大类核心服务,具备高度定制化能力,能够为不同发展阶段的企业提供一站式招聘解决方案,同时为企业转型升级提供保障,全面增强企业核心竞争力!智联猎头利用自身独特的资源优势、成熟的服务模式,以及多层次的产品,致力于打造高效、专业的一站式人才服务模式,让招聘更加美好!
公司主页