该职位已失效,看看其他机会吧

运维管理工程师

1-1.8万
  • 东莞
  • 经验不限
  • 本科
  • 全职
  • 招1人

职位描述

PythonShell服务器运维云运维
1. 负责大模型全流程业务连续性支持,针对大模型训练和推理过程中出现的中断故障进行定界,区分基础层与上层模型问题。
2. 负责大模型训练、推理过程中由于慢卡慢网络问题导致的性能劣化,进行根因分析。
3. 负责典型故障案例的收集和总结。项目运维过程中客户侧需求搜集、分析及反馈。
4. 支撑模型PAE在模型调优过程中发生的故障定位定界。
1. 具有良好的沟通、协调和推动能力,能快速组织各领域解决项目运维过程中遇到的问题,可以快速处理客户投诉并获得客户支持和认可,可与客户高层对接和沟通,参与重大问题攻关并负责解决问题。
2. 具有大模型训练和推理现网问题处理经验,在问题发生时可以快速定界并划分清楚所属领域,可以通过归纳分析总结相关领域问题并推动后端解决;
3. 熟悉Shell脚本(必选),熟悉python语言;
4. 熟悉Linux应用编程,熟悉多进程,多线程编程,熟悉linux下的程序调试方法;;
5. 熟悉Mindspore、Pytorch常用深度学习框架的使用,熟悉Transformer深度学习模型架构,熟悉常用CV类、NLP类等深度学习算法模型。
6. 熟悉训练、推理流程,熟悉模型的参数调优和性能调优。
查看全部

工作地点

东莞华为溪村公寓

职位发布者

王女士/hr

三日内活跃
立即沟通
公司Logo外企德科数字技术有限公司
外企德科数字技术有限公司是一家2023年新成立的中外合资企业。成立于2023年11月24日,公司定位:专注于为信息技术企业提供人才及数字技术外包解决方案的中外合资企业。它是由中国人力资源服务行业的FESCO(北京国际人力资本集团)与全球人力资源服务领导者The Adecco Group(德科集团)合资成立的。公司主要提供网络技术服务、软件外包服务、计算机系统服务、技术进出口、软件开发等信息技术相关服务。专注于为信息技术企业提供信息技术类人才及数字技术外包解决方案。
公司主页