更新于 3月18日

大数据架构【Python+Dask】

1.8-3万
  • 成都武侯区
  • 3-5年
  • 本科
  • 全职
  • 招1人

职位描述

DASKPYSPARK
主要职责
1.主导使用Dask(重点为dask.delaved/dask.dataframe/dask.distributed)或PySpark 构建、优化和维护大规模分布式计算流程,设计高性能、可扩展的数据处理架构;
2.对分布式计算框架进行选型、技术路线规划与执行,包括执行模型、调度策略、性能瓶颈定位与集群资源治理;
3.基于业务需求(批处理、复杂依赖 DAG、实时/准实时处理等)设计端到端数据处理方案并推动落地;
3.指导团队进行高质量代码开发、计算图优化、任务调度优化、容错机制设计,提升整体工程能力和可维护性;
4.参与并主导核心系统的架构设计与技术方案评审,确保系统在可扩展性、稳定性和成本方面达到生产级要求;
5.构建数据处理流程的可观测性体系,包括监控指标、性能分析、告警机制与容灾策略;
6.与业务团队、数据团队、工程团队深度协作,将业务需求抽象为通用的计算能力、平合能力与可复用组件;
7.跟踪分布式计算、Pvthon 工程化、大数据技术生态的发展趋势,持续推进架构演进和平台能力升级。
职位要求:
1.计算机科学、软件工程、数学、统计或相关专业本科及以上学历;
2.5 年以-python 开发经验,至少3年以上大数据/分布式计算相关经验;
3.深入理解 Python 底层原理、异步模型、性能分析、内存管理,熟练使用NumPy、Pandas、Dask等数据科学生态;
4.熟悉分布式计算原理(DAG、TaskScheduler、Shuffle、Worker/Executor 模型数据分片策略等);
5.有实际的大数据处理性能调优经验,包括 CPU/内存优化、I/0优化、序列化、并发度调优、集群资源管理等;
6.具备优秀的架构设计、系统分析与解决复杂问题能力,能够独立完成大型数据处理平台的技术方案设计;
7.熟悉工程化体系,如 Git、CCD、代码规范、自动化测试、可观测性(logging/metrics/tracing);
8.沟通能力强,能推动跨团队协作并影响技术方向。
加分项:
1.在实际项目中使用 Dask(特别是dask.delayed/Graph优化/distributedscheduler)的深度经验;
2.有保险、再保险、金融、风控等行业的大规模数据处理经验;
3.熟悉其他分布式计算框架(Spark、Ray、Flink、阿里 MaxCompute、AWS EMR等);
4.熟悉任务编排和数据工作流工具(Airflow、Prefect、Dagster等;
5.熟悉云平台(AWS/Azure/GCP),尤其是分布式存储、Serverless、K8s、Operator、集群自动伸缩等;
6.有实时计算经验(如Flink、SparkStructured Streaming、Kafka Streams)、低延迟管道调优经验;
7.有数据平台建设经验,如数据质量体系、血缘管理、数据治理、统-指标体系;
8.具备 Dash/Streamlit/Superset/Tableau 等数据可视化开发经验;
9.有技术分享、开源贡献或架构方案沉淀经验者优先。

工作地点

成都武侯区易上·OCG国际中心

认证资质

营业执照信息

职位发布者

谢女士/招聘主管

昨日活跃
立即沟通
公司Logo信必优(深圳)信息技术有限公司广州分公司
信必优1994年成立,注册资本1600万美元,位于南山区。主营IT技术人员外包、智能终端测试等,在AI、物联网等领域经验丰富。获CMMI-Dev Level 3等多项认证,与全球500强及优秀科技公司长期合作,是靠谱的IT技术服务伙伴。
公司主页