1.负责公司大数据平台(离线/实时)的架构设计及开发,服务器集群的搭建和部署,支撑数据和算法在境内外业务的应用;
2.负责⼤数据平台的开发、组件调优和运维部署,搭建包括数据⾤集、数据集成、任务调度、元数据管理、数据⾎缘、DQC等系统,以确保数据处理的高效性和准确性;
3.负责搭建高性能、⾼可用的数据管道,支撑用户行为埋点、实时分析及离线数据处理需求;参与大数据架构的规划与实施,推动数据平台的技术创新和性能提升;
4.优化数据存储方案(如MySQL分库分表、Redis集群、JuiceFS分布式存储),提升平台数据读写效率;
- 设计并实现对多源数据的实时与离线采集、清洗、转换与存储,确保数据的完整性与准确性;
- 基于业务需求,搭建数据仓库/数据湖,对海量数据进行ETL和建模,为后续分析和可视化提供支持;
- 参与大数据生态系统(Hadoop/Spark/Flink等)的选型与落地,优化数据作业的性能和资源利用率;
8.与团队紧密合作,解决复杂的数据处理和分析问题,提供技术解决方案。
任职要求:
- 本科及以上学历(硬性条件),计算机相关专业,5年以上大数据相关工作经验,有完整的分布式数据存储计算平台项目实施经验;会使用Doris者优先考虑
- 熟悉Hadoop生态圈和数据库相关技术,有Hive/Iceberg/Spark/Flink/HBase/Elasticsearch/Clickhouse等经验者优先;
- 熟悉Linux开发环境,能使用Python/Java/Scala/Go一种或多种编程语言进行工程实现;
- 具备良好的数据库设计和优化能力,熟悉SQL及NoSQL数据库;
- 有数据模型设计及ETL流程设计经验,对数据仓库/数据湖的架构和实现有一定认知,并能结合业务需求优化数据管道;
- 熟悉主流容器化与微服务生态,如Docker、Kubernetes、API网关等,能够在分布式环境下进行部署与调度;
- 对高并发、高可用数据系统有一定的设计、开发或运维经验,有真实上线场景者优先;
- 责任心强,热爱技术拥抱开源,有良好的协作能力和逻辑思维,善于分析和闭环解决问题。