更新于 3月23日

大模型运维

1.1-1.3万
  • 上海浦东新区
  • 1-3年
  • 大专
  • 全职
  • 招1人

雇员点评标签

  • 工作环境好
  • 同事很nice
  • 氛围活跃
  • 人际关系好
  • 免费班车
  • 管理人性化
  • 团队执行强
  • 交通便利

职位描述

机器视觉自然语言处理Python人工智能
职位描述 在这个角色中,你将负责交付、测试和优化支撑大规模人工智能模型训练与推理的核心基础设施。你将直接与模型研究团队协作,致力于将前沿的AI算法高效、稳定地部署于生产环境。 核心职责 * 分布式训练与优化:按照SOP交付测试大模型训练框架和推理服务,对GPU计算、通信和存储进行系统性性能调优。 * 推理部署与加速:部署高可用、低延迟的分布式推理系统,熟练使用vLLM、TensorRT-LLM等工具。 * 基础设施与协作:与云工程师和研发团队紧密合作,共同维护AI基础设施,确保其可靠性、可扩展性,并为客户提供稳定可靠的训练、推理解决方案。 * 响应客户问题与需求:处理模型适配、运行与监控工作 必备技能 * 熟悉 PyTorch 或 TensorFlow 深度学习框架,理解其核心机制。 * 熟悉Python开发语言 * 了解Kubernetes和Docker的基本原理,并拥有使用经验。 * 了解RDMA网络。 * 出色的解决问题能力、团队协作精神和对技术的强烈热情。 优先考虑条件 * 有使用DeepSpeed、vLLM等框架进行大模型分布式训练或推理的实战经验。 * 熟悉NCCL、RDMA、MPI等通信库,了解分布式系统知识。 * 拥有在主流云平台上部署ML模型的实践经验。 * 计算机或AI相关专业优秀应届生或1年以上运维交付经验

工作地点

上海浦东新区百度研发中心

认证资质

营业执照信息

职位发布者

邢女士/HR

昨日活跃
立即沟通
公司Logo上海微创软件股份有限公司
上海微创软件股份有限公司2002年由微软与上海市政府共同创办,是微软在华投资的第一家合资公司。微创始终秉承高标准的服务品质与“成就客户”的服务理念,在全球设有20余处交付中心,分布在中国、美国、日本、澳大利亚,凭借在汽车、保险、高科技、金融、互联网等行业的深厚积累和丰富经验,与2500余家企业与政府客户达成了长期、稳定、友好的合作。
公司主页