岗位职责
1. 负责Hadoop生态集群(HDFS、YARN、Spark、Hive、HBase等)的日常运维、监控告警、故障排查与应急响应,确保集群7×24小时稳定运行。
2. 针对 Apache Iceberg / Paimon 数据湖格式进行存储优化(如小文件合并策略配置、快照过期清理、元数据一致性维护)。
3. 管理和维护Kubernetes容器集群,负责容器化应用的部署、扩缩容、资源调度优化,保障容器平台的高可用性和性能稳定性。
4. 维护大型数据库(MySQL、PostgreSQL等)、OLAP数据库(Doris、StarRocks、Clickhouse等)以及数据湖(如Hudi、Iceberg等),负责数据备份恢复、性能调优、容量规划,确保数据安全和访问效率。
5. 开发和维护自动化运维工具和脚本(Shell、Python、Ansible等),实现集群部署、配置管理、巡检监控的自动化,提升运维效率和准确性。
6. 进行集群容量规划、性能调优和架构升级,参与大数据平台技术选型和架构设计,推动运维体系的持续改进和技术演进
任职资格
1. 教育背景:本科及以上学历,计算机科学、软件工程、信息技术或相关专业优先
2. 工作经验:5-8年大数据运维、系统运维或相关领域工作经验,具备千台级别以上集群运维经验,有物流、电商、互联网等行业经验者优先
3. 技术能力:
- OLAP运维:精通 Apache Doris 运维(或 StarRocks/ClickHouse),深入理解 MPP 架构原理,有处理过节点故障、数据恢复、高并发查询优化的实际案例。
- 数据湖与存储:熟悉 Iceberg 或 Paimon 的底层文件组织原理,具备 HDFS/S3/MinIO 对象存储的大规模运维经验。
- 容器与编排:精通 Kubernetes 架构,熟悉 Docker 及 K8s 网络/存储插件,有大数据组件容器化(Operator模式)落地经验者优先。
- 基础组件:扎实的 Hadoop (HDFS/YARN) 和 Flink/Spark/Kafka 运维功底,熟悉 Linux 内核参数调优。
- 开发能力:熟练掌握 Python 或 Go 语言,能够开发 Prometheus Exporter 或 Kubernetes Operator 者极佳。
4. 业务理解:理解大数据处理流程和数据平台架构,能够根据业务需求进行容量规划和性能优化,具备良好的成本意识和资源利用率优化能力
5. 软技能:优秀的问题分析和故障排查能力,能够快速定位并解决复杂的系统问题,具备7×24小时应急响应意识和抗压能力,良好的团队协作和沟通能力,能够与开发团队、业务团队高效配合