更新于 11月19日

智算中心算力运营专家-外派南瑞

1.9-2.8万
  • 北京西城区
  • 3-5年
  • 本科
  • 全职
  • 招1人

雇员点评标签

  • 同事很nice
  • 工作环境好
  • 人际关系好

职位描述

数据中心产品人工智能计算机软件计算机硬件
岗位职责:
1.开展公司两级智算中心算力相关的运营工作,主要内容包括算力资源管理、算力技术支持、算力培训推广、算力两级协同等内容;
2.负责围绕模型训练与推理任务对算力相关需求,构建统一规范、动态调度、安全可控的两级算力运营体系,并输出相关的算力运营标准;
3.负责算力需求受理及算力需求核算等工作,针对训练场景、推理场景能够建立算力-模型匹配关系,并借助压测手段给出匹配最优算力资源的建议,核算算力需求后进行分配;
4.负责算力调度相关技术的研究和实施,能够根据算力资源指标监控等技术,对不同场景算力资源应用趋势提出总结建议,并能够进行弹性扩缩容;
5.负责算力运监监测指标的梳理,能够基于监测技术构建算力运营指标监测体系,帮助开展算力资源规划设计关工作;
6.精通AI基础设施和人工智能软件,能够定期对市面上主流的大模型、人工智能芯片、无损网络等软硬件产品开展调研,并形成调研报告,指导公司后续智算中心算力规划和建设。
任职要求:
1.本科及以上学历,计算机/电子工程相关专业;具备3年以上GPU集群/智算中心运维运营经验;熟悉Python、Ansible,有一定的编程能力;
2.精通人工智能大模型训练微调、推理部署全栈流程,能够与模型研发团队协作预估算力需求,具备分析训练微调、推理部署任务日志,进行简单问题定位能力;
3.精通Kubernetes/Docker容器化技术,具备设计GPU/NPU集群调度策略,优化资源利用率,实现算力资源的高效利用的能力;
4.对算力-模型匹配关系有深度认知,熟悉模型部署与压测相关技术,能够针对模型特性,通过压测手段给出匹配最优算力资源的建议;
5.精通promethous/Grafana等监控软件,能够通过预埋探针检测算力使用瓶颈,并建立弹性伸缩机制,输出算力效能分析报告等能力;
6.熟悉智算中心训练微调、推理部署场景下相应的组网方案,能够给出组网规划;
7.熟悉NVIDIA CUDA生态或华为昇腾CANN生态及Pytorch、TensorFlow、SGLang、Vllm等主流AI框架;
8.有智算中心算力、平台、模型、智能体整体规划设计和建设实施工作经验的可以优先考虑。
9.对工作充满激情,富有责任心,沟通能力强,能承受工作压力。

工作地点

北京西城区国网大数据中心

职位发布者

庄女士/招聘专员

三日内活跃
立即沟通
公司Logo同方鼎欣科技股份有限公司
同方鼎欣科技股份有限公司(以下简称:同方鼎欣)是服务中国及全球的高端IT解决方案与服务提供商。同方鼎欣一直致力于以自主创新的技术推动信息化革新。公司成立于1994年,前身是清华大学首家校办企业,现为同方股份有限公司等多家上市企业的参股公司。公司总部位于北京,在国内外多个城市设有分支机构,拥有行业优秀的研发及服务团队。公司严格遵循国际最高的质量及安全标准,拥有完善、成熟的管理和研发体系。率先通过了CMMI L3、ISO9001:2008、ISO27001及系统集成二级等一系列资质认证。连续多年被认定为“国家规划布局内重点软件企业”,荣获”中国软件和信息服务业最佳解决方案奖”、“中关村国家自主示范区软件行业创新示范百强企业”、“自主可靠企业核心软件品牌”等荣誉。同方鼎欣以系统化咨询、平台化技术、专业化服务为全球客户提供咨询、IT服务及行业解决方案,专注于医疗、电力、公共服务、电信、金融等领域。通过丰富的业务积累和实施经验,不断创新产品与技术平台,帮助客户实现全方位的信息化业务。目前公司已成为众多全球500强企业及行业新锐公司的战略合作伙伴。同方鼎欣以“技术创新”作为企业核心竞争力及品牌座右铭。依托清华大学、同方股份等资源优势,实践以客户价值为核心的服务理念,致力于向全球客户提供高品质服务,不断为客户创造价值,提升竞争力。
公司主页