岗位职责:
1.设计并开发离线数据处理流程,包括数据采集、清洗、转换与加裁(ETL),保障数据的准确性与时效性:
2.使用Python及相关生态工具(如Pandas、NumPy、Dask等)进行大规模数据预处理与跨系统数据同
3.与算法和业务团队协作,为大小模型训练任务提供数据支持;
任职要求:
1.计算机、数学、统计学或相关专业本科及以上学历,3年以上数据开发任务经验;
2.熟练掌握Python编程,深入理解Pandas、NumPy、scikit-learn等数据科学库的使用;
3.熟悉离线数据处理架构,了解Sqoop、DataX等数据同步工具的典型应用场景;
4.掌握常见的机器学习算法(如分类、聚类、推荐系统)及其数据准备流程;
5.具备较强SQL开发能力,能高效编写复杂查询,并对数据质量与一致性有高度敏感;
6.了解阿里云或其他云平台数据开发者优先,有Dataworks、Maxcompute、PAl使用经验者更佳;
7.具备良好的工程习惯、文档能力和团队协作意识,能独立推进数据项目落地。