岗位职责:
1、平台保障与日常运维
负责公司大数据基础平台数据库的运维:包括部署、升级、容量规划、性能优化、监控指标制定、与日常维护,保障平台稳定、高效运行。
7×24小时响应并快速处理大数据平台故障与告警,确保高可用性与数据安全。
建立完善的监控、告警、灾备体系,提升系统可靠性。
2、自动化与效率提升
设计并实现自动化运维工具、脚本,涵盖自动化部署、监控、巡检等场景,提升集群运维效率。
优化资源调度与成本控制机制,提升集群资源利用率,合理控制平台成本。
3、架构设计与技术演进
主导大数据平台的架构设计、演进与优化,解决大规模集群下的性能瓶颈与可靠性挑战。
前瞻性调研新技术,引入合适的技术栈,持续提升平台能力。
4、业务支持与团队协作
深入理解业务需求,为数据开发、数据分析等用户提供技术支持,优化平台使用体验。
指导和培养初级成员,传递运维经验与技术规范。
5、规范与体系建设
建立和完善平台基线、运维规范、成本管理及应急预案,推动标准化流程落地。