职位要求:
1.主导健康云数据即服务(DaaS)平台全链路可靠性体系搭建与优化,负责数据采集、传输、存储、计算、服务化全流程的高可用保障,牵头制定SLA标准并落地执行,确保核心服务可用性。
2.主导DaaS平台重大故障、复杂问题的应急响应与根因分析,输出可落地的优化方案,推动问题闭环,沉淀故障处理最佳实践,提升团队应急处置能力。
3. 牵头DaaS平台性能优化与容量规划,针对数据吞吐量、查询延迟、并发量等核心指标开展专项优化,解决数据倾斜、链路瓶颈等复杂技术问题,支撑业务高并发场景需求。
4.主导DaaS平台可靠性自动化建设,设计并落地监控、告警、熔断、降级、自愈等核心能力,基于Python/Go开发自动化运维工具与平台,推动运维模式从被动响应向主动预防、智能化运维转型。
5. 深入理解DaaS业务场景与数据服务需求,配合技术解决方案落地交付,参与平台架构迭代、技术选型,规避潜在可靠性风险。
6. 负责团队技术沉淀与能力提升,主导可靠性技术规范、运维手册制定,推动团队Daas技术水平提升。
7. 跟踪DaaS、数据可靠性、AIOps等领域前沿技术趋势,引入行业最佳实践,结合业务实际开展技术创新,提升平台可靠性与运维效率。
任职要求:
1.精通Linux/Unix操作系统,具备深厚的系统内核、网络协议(TCP/IP)、分布式系统理论基础,能独立排查复杂的系统、网络、数据链路故障。
2.深入理解DaaS平台架构与核心流程,熟悉数据采集(Flume、Logstash)、传输(Kafka、RocketMQ)、存储(HDFS、S3、ClickHouse)、计算(Spark、Flink)、服务化(API网关)等核心组件的可靠性运维方法。
3. 具备丰富的重大故障应急处置、根因分析经验,能主导复杂技术问题的排查与解决,有大规模DaaS平台或数据中台可靠性建设经验者优先。
4.精通监控告警体系搭建,熟悉Prometheus、Grafana、ELK等监控日志工具,能设计合理的监控指标、告警策略,实现故障提前预警与快速定位。
5. 具备强烈的责任心、技术攻坚能力与跨团队协作能力,有良好的沟通表达与文档撰写能力,能主导技术方案的落地与推广。
6. 英语CET-4及以上,能熟练查阅英文技术文档,跟踪国际前沿技术动态。