岗位职责:
1.负责数据仓库架构设计与分层开发,基于业务需求搭建 ODS、DWD、DWS、ADS 分层模型,制定并落地数据仓库命名规范、开发规范。
2.基于 Apache Doris、ClickHouse 等大数据引擎,编写高效的 SQL 脚本,完成数据抽取、清洗、转换、加载(ETL) 任务,保障数据同步的准确性和时效性。
3.负责DataX、Sqoop等数据同步工具的任务配置、调度与监控,解决数据同步过程中的断点续传、数据一致性等问题。
4.参与大数据平台性能优化,包括 SQL 语句优化、分区裁剪、谓词下推、索引设计等,提升数据查询和处理效率。
5.配合业务部门进行数据需求调研与分析,提供数据支撑方案,输出符合业务需求的报表、指标体系或数据接口。
6.负责数据任务的监控与运维,建立数据质量校验规则,及时排查和解决数据延迟、数据错误等问题,保障数据链路稳定运行。
任职要求:
硬性要求:
1.本科及以上学历,计算机、软件工程、统计学等相关专业,3 年及以上大数据开发相关工作经验。
2.精通 Hadoop 生态体系,熟练掌握 HDFS、YARN、MapReduce、Hive、Spark 等核心组件的原理与应用。
3.熟练使用 Apache Doris、ClickHouse 至少一种 MPP 数据库,具备丰富的表结构设计、SQL 优化经验,理解 CBO 优化器原理。
4.熟练使用 DataX 等数据同步工具,能够独立配置复杂的数据同步任务,解决异构数据源同步问题。
5.掌握 Shell/Python 脚本开发,能够编写自动化调度脚本、数据校验脚本。
6.具备SmartBI、FINEBI等至少一个主流BI产品的建设经验优先
7.了解主流调度工具的使用,能够搭建完整的 ETL 调度流程。
软性要求:
1.具备较强的逻辑思维能力,能够快速拆解复杂业务需求并转化为技术方案。
2.具备良好的问题排查能力,能够定位并解决大数据平台运行过程中的性能瓶颈和数据异常问题。
3.具备团队协作精神,能够与业务分析师、数据分析师高效沟通,推动项目落地。
4.具备较强的学习能力,能够快速跟进新技术并应用于实际工作。