岗位职责:
1.参与公司数据产品的数据建模、ETL数据处理工作;
2.数据融合、数据质量、数据处理的大数据架构和技术选型;
3.主导数据产品的数据相关业务流程、技术六层设计及实现,参与需求分析、方案编写、技术交流等工作。
4.基于用户需求制定开发计划,承担项目的模块设计和详细设计工作;
5.承担项目核心模块的开发工作,确保按时完成既定的开发任务;
6.参与项目产品需求分析、业务流程分析设计以及总体技术方案设计;
7.参与软件的整体规划和实施,解决项目中的问题;
8.参与开发团队成员进行技术交流,互相促进技术能力的提升。
任职要求:
1. 本科及以上学历;5 年及以上大数据开发、数据平台建设相关工作经验,具备独立搭建、调优、运维大数据集群的实战经验,有分布式系统架构设计经验者优先。
2. 熟悉 Hadoop 生态技术栈,包括但不限于:HDFS、YARN、MapReduce、Spark Core/Spark SQL/Spark Streaming、Hive、HBase、Kafka、Elasticsearch;理解底层原理,具备性能调优、故障排查、数据倾斜处理、高可用架构实践能力。
3. 熟练使用 Linux 操作系统;精通 Shell 脚本开发,具备自动化运维、数据调度脚本编写能力;熟练使用 Java 进行大数据组件开发与二次改造,掌握 Python 用于数据清洗、ETL、数据分析及工具开发。
4. 熟练掌握 PostgreSQL、MySQL 等关系型数据库的设计、优化与使用;掌握 MongoDB、Redis、ClickHouse 等 NoSQL 及时序 / 列式数据库,具备多源数据整合、异构数据同步实战经验。
5. 熟悉 Flink、Flink CDC 等实时计算框架,有实时数仓、实时数据链路、实时大屏、实时监控相关项目经验者优先;了解阿里云 DataWorks、百度智能云大数据平台、华为云 MRS 等主流云原生大数据平台。
6. 熟悉数据仓库建模理论(维度建模、星型模型、雪花模型),有离线 / 实时数仓建设、数据治理、元数据管理、数据质量监控经验者优先。
7. 具备大数据集群安全、权限管控、容灾备份、扩容迁移等运维与架构经验;了解容器化(Docker)、编排(K8s)在大数据平台中的应用者优先。
8. 具备良好的沟通能力和团队合作意识,态度主动积极,勇于承担压力并接受挑战,对航天方向有热情者优先。