雇员点评标签
职位描述
PyTorchTensorFlowGPU集群管理容器化部署AI基础设施架构
工作职责:
1、负责AI基础设施的架构设计与落地,包括GPU集群管理、分布式存储系统及容器化部署方案。
2、优化AI训练与推理的资源调度策略,提升算力利用率与任务执行效率。
3、解决大规模模型训练中的性能瓶颈,保障系统的高可用性与稳定性。
4、跟进AI Infra领域前沿技术(如RDMA、异构计算),推动技术栈的迭代升级。
任职要求:
1、博士及以上学历,基础扎实。
2、精通Kubernetes、Docker等容器化技术,具备大规模集群管理经验。
3、熟悉TensorFlow/PyTorch等主流框架的底层运行机制,掌握分布式训练原理。
4.、具备GPU性能调优、网络优化或存储系统设计经验者优先。
5.、拥有良好的问题分析能力与跨团队协作能力,能独立推动复杂技术项目落地。
1、负责AI基础设施的架构设计与落地,包括GPU集群管理、分布式存储系统及容器化部署方案。
2、优化AI训练与推理的资源调度策略,提升算力利用率与任务执行效率。
3、解决大规模模型训练中的性能瓶颈,保障系统的高可用性与稳定性。
4、跟进AI Infra领域前沿技术(如RDMA、异构计算),推动技术栈的迭代升级。
任职要求:
1、博士及以上学历,基础扎实。
2、精通Kubernetes、Docker等容器化技术,具备大规模集群管理经验。
3、熟悉TensorFlow/PyTorch等主流框架的底层运行机制,掌握分布式训练原理。
4.、具备GPU性能调优、网络优化或存储系统设计经验者优先。
5.、拥有良好的问题分析能力与跨团队协作能力,能独立推动复杂技术项目落地。
展开该职位详情





