岗位职责:
1、负责设计并实现模块级别的ETL流程,确保数据准确无误地从源端传输到目端。
2、基于业务需求,优化数仓表结构设计,提升查询性能,支持更快捷的数据访问。
3、实施数据质量规则,定期检查数据健康状况,保证数据的一致性和可靠性。
4、参与数据建模,根据业务需求设计星型/雪花模型,优化数据仓库结构。
任职要求:
1、年龄35岁以下,有2年以上大数据开发工作经验
2、掌握Hadoop 生态核心组件原理(HDFS、YARN、Hive、Spark)
3、掌握数仓分层架构理论(ODS/DWD/DWS/ADS)及各层设计原则
4、掌握维度建模基础(星型模型、雪花模型、缓慢变化维、拉链表)
5、掌握 DAMA 数据管理体系(数据标准、数据质量、元数据、主数据)
6、掌握数据校验规则与逻辑(完整性、唯一性、格式合规性)
7、掌握SQL语言,熟悉数据查询、连接、聚合、子查询及窗口函数等常用操作。
8、掌握Python与常用数据处理库(os/sys/json/re/pandas基础)