职位描述
ShellPython脚本开发3年以上LINUX
中国电信的外包岗位,介意勿扰!本科!
岗位内容
1、基础设施管理:负责用户现场虚拟机、Kubernetes集群及中间件资源的维护与管理,包括Linux操作系统与开源组件的部署、资源扩容、配置变更等日常运维操作。
2、平台发版与上线支持:负责业务平台在正式环境的版本发布评审与操作实施。
3、故障处理与恢复:快速响应系统及开源组件的异常事件,准确诊断问题根源,实施有效修复措施,最大限度减少服务中断时间,提升系统可用性。
4、算力资源管理:根据用户需求,完成算力资源的纳管与释放,确保资源可监控、可调度、可管理。
5、模型评测:对模型在不同算力设备上的运行表现进行模型性能、基准能力、行业能力的评估,输出评测数据,评估模型适配的硬件资源类型,支持模型部署决策。
6、模型部署支持:根据业务需求,完成模型的部署工作,包括资源配置建议、镜像打包、部署验证及性能指标跟踪。
7、模型运行监控:实时监控模型运行状态,包括准确性、响应时间、资源占用等关键指标;定期开展模型健康检查和性能拨测,识别瓶颈并推动优化改进。
职位要求:
1、计算机相关专业,大学本科或以上学历;
2、具备3年以上Linux运维工作,精通linux环境下的日常运维工具,并具备安装、配置及排障能力;
3、熟悉Docker\Kubernetes等生态圈项目,如容器集群、监控、日志、存储等部署方案;
4、熟练使用shell、python等语言进行运维工具或自动化脚本的编写;
5、优先考虑掌握NVIDIA系列卡的大模型部署,熟悉大模型在海光K100、华为910B等国产算力卡的应用部署;
6、优先考虑熟练使用至少一种主流Al训练框架,如TensorFlow、PyTorch、Caffe等;
7、具备较强的运维意识以及自我驱动和学习能力。
岗位内容
1、基础设施管理:负责用户现场虚拟机、Kubernetes集群及中间件资源的维护与管理,包括Linux操作系统与开源组件的部署、资源扩容、配置变更等日常运维操作。
2、平台发版与上线支持:负责业务平台在正式环境的版本发布评审与操作实施。
3、故障处理与恢复:快速响应系统及开源组件的异常事件,准确诊断问题根源,实施有效修复措施,最大限度减少服务中断时间,提升系统可用性。
4、算力资源管理:根据用户需求,完成算力资源的纳管与释放,确保资源可监控、可调度、可管理。
5、模型评测:对模型在不同算力设备上的运行表现进行模型性能、基准能力、行业能力的评估,输出评测数据,评估模型适配的硬件资源类型,支持模型部署决策。
6、模型部署支持:根据业务需求,完成模型的部署工作,包括资源配置建议、镜像打包、部署验证及性能指标跟踪。
7、模型运行监控:实时监控模型运行状态,包括准确性、响应时间、资源占用等关键指标;定期开展模型健康检查和性能拨测,识别瓶颈并推动优化改进。
职位要求:
1、计算机相关专业,大学本科或以上学历;
2、具备3年以上Linux运维工作,精通linux环境下的日常运维工具,并具备安装、配置及排障能力;
3、熟悉Docker\Kubernetes等生态圈项目,如容器集群、监控、日志、存储等部署方案;
4、熟练使用shell、python等语言进行运维工具或自动化脚本的编写;
5、优先考虑掌握NVIDIA系列卡的大模型部署,熟悉大模型在海光K100、华为910B等国产算力卡的应用部署;
6、优先考虑熟练使用至少一种主流Al训练框架,如TensorFlow、PyTorch、Caffe等;
7、具备较强的运维意识以及自我驱动和学习能力。
工作地点
上海静安区武定路

认证资质
营业执照信息

更新于 今天





