更新于 今天

机器学习平台工程师

1.1-1.5万
  • 苏州工业园区
  • 1-3年
  • 本科
  • 全职
  • 招2人

职位描述

人工智能云计算/大数据
1、设计并搭建高性能,高可扩展的AI基础设施平台,支持模型的训练与推理任务,优化GPU集群资源调度策略。
2、构建容器化部署方案(Kubernetes/Docker),构建高质量训练&推理镜像。
3、搭建AI系统全链路监控体系(Prometheus/Grafana/ELK),实时追踪GPU利用率,推理延迟,错误率等核心指
4、维护分布式存储系统(如JuiceFS,Cubefs等),确保训练推理数据的高可用与读写性能。制定并执行机房容灾备份策略,防范硬件故障,数据丢失等风险。
5、负责机器学习平台的开发,支撑公司训练,评测,标注等相关业务的算法生产与高效迭代
6、负责对接训练平台在自动驾驶数据流中的上下游,具体包括提升数据预处理的效率,提供用户友好的模型管理工具等;
任职要求:
1、统招本科及以上学历,计算机科学,人工智能或相关领域专业。两年及以上相关工作经验
2、了解前沿的AI技术,有工程实践经验者优先,有火山云,阿里云等云厂商使用经验;
3、有大型Al集群(含多机多卡分布式训练)运维经验,了解TensorFlow/PyTorch等框架的运行机制。
4。具备实际问题分析与故障排查能力,能快速定位并解决平台与机房的复杂问题。
5、熟悉Containerd、Docker、Kubernetes等容器技术;
6、掌握shell、python等至少一种脚本语言;
加分点:
1、熟悉分布式系统研发(包括但不限于Kubeflow、AutoML、Spark 等);
2、有机器学习平台开发经验(包括但不限于PyTorch、PaddlePaddle.TVM、Triton等);
3、熟悉数据库(包括但不限于SQL、LMDB、TF Record、Webdataset、Lance),能够有效地进行数据存储和检索;
4、具备较强神经网络模型训练与调优实践经验;
5、了解通用GPU架构以及业内相关虚拟化方案;
6、了解高性能网络相关技术,对RDMA编程以及相关流控技术有一定的技术储备加分;
7、有过大型项目开发经验,代码功底扎实;
8、具备模型训练&部署经验优先;
9、熟悉编译器(LLVM、MLIR)、并行计算(CUDA、OpenCL等)、高性能计算(MPI、HPC)以及存储引擎;

工作地点

工业园区九识(苏州)智能科技有限公司

职位发布者

朱先生/HRBP主管

刚刚活跃
立即沟通
公司Logo九识智芯智能科技
九识成立于 2021年8月,总部位于苏州园区,在北京海淀、美国硅谷等地设有研发分部;成立至今,已成长为苏州园区重大领军企业,是国内成长速度最快的自动驾驶企业。2025年先后完成 A、B轮融资,超亿美元融资,专注于L4级自动驾驶城配物流技术研发与商业化应用,总部位于苏州,业务覆盖全球194个城市及海外市场,累计送单量超3亿单。成立于2021年,总部位于中国苏州,在北京和美国硅谷设有研发中心,是苏州市独角兽企业及国家级高新技术企业。公司聚焦城配物流场景,提供无安全员的自动驾驶运输服务,已服务电商、商超、即时配送等提供端到端智能城配物流解决方案。自动驾驶车辆已在苏州、杭州、深圳、北京、上海等多个城市实现常态化商业运营,规模与里程持续领先。汇聚全球自动驾驶与人工智能领域顶尖人才,获得顶级资本支持。愿景:成为全球领先的城市智慧物流基础设施提供者,用自动驾驶技术重塑物流未来。‌核心技术‌.‌全栈自研能力‌:覆盖L4级自动驾驶算法、三维感知、决策系统等八大技术栈,实现软硬件模块全自研,并搭建智能化、车辆、电动化三大技术平台。‌‌‌‌3.‌创新产品线‌:Z系列(如Z5、Z8)主打通用场景,装载空间5-8m³,适应复杂路况。E系列(如E6)针对轻件散件物流优化,采用无立柱车身设计,搭载自研NOA导航技术,摆脱高精地图依赖。‌‌‌‌.‌极端环境适应‌:通过多传感器冗余方案(激光雷达、摄像头等)和噪点过滤算法,实现在高原、极寒等全场景稳定运行。‌‌‌商业落地‌国内覆盖‌:业务拓展至中国200多个城市,包括中国西藏等高海拔地区,累计运营里程超2000万公里。‌‌2‌‌3海外布局‌:进入新加坡、日韩、中东市场,获新加坡首张无人物流车牌照,并参与国际自动驾驶标准制定。‌‌
公司主页