资深大数据运维专家/SRE（湖仓与云原生方向）

1.2-2万

成都武侯区
5-10年
本科
全职
招2人

职位描述

数据库运维APACHE DORISPythonGoLang互联网云计算/大数据计算机软件

岗位职责
1. 负责Hadoop生态集群(HDFS、YARN、Spark、Hive、HBase等)的日常运维、监控告警、故障排查与应急响应，确保集群7×24小时稳定运行。
2. 针对 Apache Iceberg / Paimon 数据湖格式进行存储优化（如小文件合并策略配置、快照过期清理、元数据一致性维护）。
3. 管理和维护Kubernetes容器集群，负责容器化应用的部署、扩缩容、资源调度优化，保障容器平台的高可用性和性能稳定性。
4. 维护大型数据库(MySQL、PostgreSQL等)、OLAP数据库（Doris、StarRocks、Clickhouse等）以及数据湖(如Hudi、Iceberg等)，负责数据备份恢复、性能调优、容量规划，确保数据安全和访问效率。
5. 开发和维护自动化运维工具和脚本(Shell、Python、Ansible等)，实现集群部署、配置管理、巡检监控的自动化，提升运维效率和准确性。
6. 进行集群容量规划、性能调优和架构升级，参与大数据平台技术选型和架构设计，推动运维体系的持续改进和技术演进

任职资格
1. 教育背景：本科及以上学历，计算机科学、软件工程、信息技术或相关专业优先
2. 工作经验：5-8年大数据运维、系统运维或相关领域工作经验，具备千台级别以上集群运维经验，有物流、电商、互联网等行业经验者优先
3. 技术能力：
- OLAP运维：精通 Apache Doris 运维（或 StarRocks/ClickHouse），深入理解 MPP 架构原理，有处理过节点故障、数据恢复、高并发查询优化的实际案例。
- 数据湖与存储：熟悉 Iceberg 或 Paimon 的底层文件组织原理，具备 HDFS/S3/MinIO 对象存储的大规模运维经验。
- 容器与编排：精通 Kubernetes 架构，熟悉 Docker 及 K8s 网络/存储插件，有大数据组件容器化（Operator模式）落地经验者优先。
- 基础组件：扎实的 Hadoop (HDFS/YARN) 和 Flink/Spark/Kafka 运维功底，熟悉 Linux 内核参数调优。
- 开发能力：熟练掌握 Python 或 Go 语言，能够开发 Prometheus Exporter 或 Kubernetes Operator 者极佳。
4. 业务理解：理解大数据处理流程和数据平台架构，能够根据业务需求进行容量规划和性能优化，具备良好的成本意识和资源利用率优化能力
5. 软技能：优秀的问题分析和故障排查能力，能够快速定位并解决复杂的系统问题，具备7×24小时应急响应意识和抗压能力，良好的团队协作和沟通能力，能够与开发团队、业务团队高效配合