更新于 2月28日

模型适配支持工程师

1.2-1.3万
  • 济南历下区
  • 1-3年
  • 大专
  • 全职
  • 招1人

雇员点评标签

  • 工作环境好
  • 同事很nice
  • 人际关系好
  • 团队执行强
  • 氛围活跃
  • 免费班车
  • 管理人性化
  • 准时发工资

职位描述

大模型算法AI算法PythonPyTorchTensorFlowKubernetesDocker智能体搭建大模型分布式训练LINUX
岗位职责:
在这个角色中,你将负责交付、测试和优化支撑大规模人工智能模型训练与推理的核心基础设施。你将直接与模型研究团队协作,致力于将前沿的AI算法高效、稳定地部署于生产环境。
核心职能:
* 分布式训练与优化:按照SOP交付测试大模型训练框架和推理服务,对GPU计算、通信和存储进行系统性性能调优。
* 推理部署与加速:部署高可用、低延迟的分布式推理系统,熟练使用vLLM、TensorRT-LLM等工具。
* 基础设施与协作:与云工程师和研发团队紧密合作,共同维护AI基础设施,确保其可靠性、可扩展性,并为客户提供稳定可靠的训练、推理解决方案。
* 响应客户问题与需求:处理模型适配、运行与监控工作
任职要求:
* 熟悉 PyTorch 或 TensorFlow 深度学习框架,理解其核心机制。
* 熟悉Python开发语言
* 了解Kubernetes和Docker的基本原理,并拥有使用经验。
* 了解RDMA网络。
* 出色的解决问题能力、团队协作精神和对技术的强烈热情。
优先考虑条件
* 有使用DeepSpeed、vLLM等框架进行大模型分布式训练或推理的实战经验。
* 熟悉NCCL、RDMA、MPI等通信库,了解分布式系统知识。
* 拥有在主流云平台上部署ML模型的实践经验。
* 计算机或AI相关专业优秀应届生或1年以上运维交付经验

工作地点

济南历下区齐鲁软件园

职位发布者

苟女士/招聘

昨日活跃
立即沟通
公司Logo软通动力信息技术(集团)股份有限公司公司标签
软通动力信息技术(集团)股份有限公司(以下简称“软通动力”)是中国领先的全栈智能化产品与服务提供商,2005年成立于北京,始终坚持创新,致力于成为一家具有全球影响力的科技企业。公司提供软件与数字技术服务、计算产品与智能电子、数字能源与智算服务以及国际化服务,员工90000人。目前,公司在10余个重要行业服务超过2600家国内外客户,其中超过230家客户为世界500强或中国500强企业。公司位列2024年中国 IT服务市场第一,入选2025年财富中国 500强企业,位列429。软通动力拥有软通咨询、软通金科、软通国际、软通工业互联、软通华方、机械革命、恒悦等业务子品牌,北京、江苏两大智能制造基地,布局北美、日韩、亚太、中东四大区域市场,在全球60余个城市构建完善的全球业务网络。公司锚定AI前沿,以人工智能工程能力为基础,科学智能(AI for Science)为引领,布局智能制造、ICT软硬基础能力和具身智能等领域,打造新产业链闭环,为客户提供场景智能(AIAgent)、终端智能(AI Terminal)、计算智能(AIInfra)的全栈智能服务。软通动力设立30个能力中心,拥有1个国家级工程实验室,6个省市政府认定的工程、技术实验室及研发中心,1个博士后科研工作站,依托全球软硬生态协同创新体系,不断探索前沿技术应用潜力。公司旗下教育品牌软通教育,拥有一家全日制本科学院——郑州西亚斯学院数字技术产业学院;全国合作院校700多所,设有70多个校企联合人才培养基地,通过校企合作、协同育人,为社会培养高素质应用型人才。软通动力先后荣获“2024新经济企业500强”、“2024年中国软件和信息技术服务竞争力百强企业”、“中国软件产业40年贡献企业”、“2024年信创领军企业”、“省级科技进步奖”,入选沪深300、中证A500、创业板50等核心指数,深交所信息披露最高“A”级评价,连续三年获得Wind ESG评级AA级等权威认可;拥有专利380+项、全球软件工程领域最高级别CMMI V2.0成熟度5级评估认证、信息系统建设和服务能力最高等级——杰出级(CS5)、信息技术服务标准(ITSS)运维能力成熟度一级认证等专业资质,支撑公司更优质的服务体系。
公司主页