任职要求:
核心定位:聚焦数仓整体架构设计、技术栈选型、生态原理落地,具备跨组件统筹能力,同时也负责部分代码开发
1.精通 Spark 生态(Core、SQL),具备 Scala开发经验,能基于 Spark 进行分布式计算架构设计
2.熟悉 Flink 核心原理及应用场景,具备 Java开发基础,可主导流批一体架构规划
3.深入理解 Hadoop 生态(HDFS、YARN)底层原理,能结合业务场景设计分布式存储与资源调度方案
4.熟悉数据湖技术选型,至少使用过 Paimon)Hudi/lceberg 其中一种,能主导数据湖与数仓融合架构设计(重要)
5.熟悉 Shell 脚本,可完成基础架构自动化运维与组件调试
6.熟悉数据仓库核心理论,具备 SQL 高阶应用能力,能指导分层/主题建模架构设计
7.熟悉 MPP 数据库(Doris/ClickHouse)核心特性,能结合业务场景进行 OLAP 引擎选型与性能优化规划
8.具备大数据生态组件(Flink、HadoopSpark、lceberg)技术评估与运维规划能力,可主导架构性能优化