岗位描述
1. 负责AI训练与推理平台的架构设计与运维,支持大模型与小模型的全生命周期管理;
2. 搭建云端GPU集群(Kubernetes+Kubeflow/Slurm)的训练环境,优化资源调度与成本;
3. 负责模型量化(INT8/FP16)、剪枝、蒸馏等边缘优化技术,实现模型在边缘设备的高效部署;
4. 设计模型性能测试方案(精度、延迟、吞吐量、功耗),建立基准测试体系;
5. 构建CI/CD流水线,实现模型训练、验证、部署的自动化;
6. 优化边缘设备(Jetson、RK系列、海思等)的推理性能,解决内存与算力瓶颈;
7. 监控线上模型运行状态,设计A/B测试与模型热更新机制。
任职要求
1. 计算机相关专业本科及以上学历,3年以上AI基础设施或MLOps相关经验;
2. 熟悉深度学习框架(PyTorch/TensorFlow)的分布式训练与部署;
3. 精通Kubernetes、Docker,有云原生AI平台(Kubeflow、MLflow、Triton Inference Server)搭建经验;
4. 熟悉模型优化技术(TensorRT、ONNX Runtime、OpenVINO、TVM),有端侧部署实战案例;
5. 熟悉GPU服务器(NVIDIA A100/H100)的集群管理与性能调优;
6. 熟悉Prometheus、Grafana等监控工具,具备故障排查与系统优化能力;
7. 有安防、自动驾驶、工业视觉等领域的大规模模型部署经验者优先。