更新于 2月27日

运维交付项目经理

1.2-1.3万
  • 济南历城区
  • 经验不限
  • 本科
  • 全职
  • 招1人

雇员点评标签

  • 工作环境好
  • 同事很nice
  • 氛围活跃
  • 人际关系好
  • 免费班车
  • 管理人性化
  • 团队执行强
  • 交通便利

职位描述

系统运维服务器运维交付云计算/大数据人工智能计算机软件
位描述 在这个角色中,你将负责交付、测试和优化支撑大规模人工智能模型训练与推理的核心基础设施。你将直接与模型研究团队协作,致力于将前沿的AI算法高效、稳定地部署于生产环境。 核心职责 * 分布式训练与优化:按照SOP交付测试大模型训练框架和推理服务,对GPU计算、通信和存储进行系统性性能调优。 * 推理部署与加速:部署高可用、低延迟的分布式推理系统,熟练使用vLLM、TensorRT-LLM等工具。 * 基础设施与协作:与云工程师和研发团队紧密合作,共同维护AI基础设施,确保其可靠性、可扩展性,并为客户提供稳定可靠的训练、推理解决方案。 * 响应客户问题与需求:处理模型适配、运行与监控工作 必备技能 * 熟悉 PyTorch 或 TensorFlow 深度学习框架,理解其核心机制。 * 熟悉Python开发语言 * 了解Kubernetes和Docker的基本原理,并拥有使用经验。 * 了解RDMA网络。 * 出色的解决问题能力、团队协作精神和对技术的强烈热情。 优先考虑条件 * 有使用DeepSpeed、vLLM等框架进行大模型分布式训练或推理的实战经验。 * 熟悉NCCL、RDMA、MPI等通信库,了解分布式系统知识。 * 拥有在主流云平台上部署ML模型的实践经验。 * 计算机或AI相关专业优秀应届生或1年以上运维交付经验 能够接受7*24值班排班

工作地点

济南历城区朝山街与烈士山北路交叉口

职位发布者

刘女士/招聘经理

刚刚活跃
立即沟通
公司Logo上海微创软件股份有限公司
上海微创软件股份有限公司2002年由微软与上海市政府共同创办,是微软在华投资的第一家合资公司。微创始终秉承高标准的服务品质与“成就客户”的服务理念,在全球设有20余处交付中心,分布在中国、美国、日本、澳大利亚,凭借在汽车、保险、高科技、金融、互联网等行业的深厚积累和丰富经验,与2500余家企业与政府客户达成了长期、稳定、友好的合作。
公司主页