职位描述
GPU推理集群搭建AI 模型推理部署云计算人工智能大数据
一、 岗位职责
1.负责国产算力卡(昇腾/寒武纪)推理集群搭建、IDC内网运维、跨境专线网络调度、AI 模型推理部署、系统稳定性维护、技术合规备案全流程工作。
2.搭建统一监控体系,远程监控所有 GPU 运行负载、算力利用率、温度、在线状态、异常掉线告警,保障 7*24 小时稳定运行。
3.负责服务器系统维护、环境配置、驱动迭代、推理服务更新与故障修复。
4.对接园区机房运维,协同处理断电、断网、硬件故障、机房调度问题,保障业务持续可用。
5.优化国内算力节点到新加坡、海外网络专线通道,降低推理延迟、解决丢包、掉线、抖动问题,提升海外客户使用体验。
6.维护AI推理服务、API调度系统、算力资源管理系统,保障推理服务稳定输出。
7.负责算力用量、Token消耗、设备产出统计,输出精准运维报表、对账数据、运营数据。
8.负责新增GPU设备上架、组网、集群并入、服务上线,完成算力扩容落地。
9.负责公司技术合规体系建设:网络安全、等保、系统备案、数据出境合规资料整理,保障业务全程合规。
二、任职资格
1. 本科及以上学历,计算机、人工智能、大数据、网络工程、软件工程等相关专业。
2. 5 年以上IDC机房运维、云计算、GPU推理集群运维、AI算力租赁经验,做过 4090/国产昇腾/寒武纪推理集群部署项目经验优先。
3. 熟练掌握 Linux、Docker、网络架构、防火墙配置;精通 GPU监控、算力调度、推理服务部署、API接口搭建、Token用量计费统计、流量监控、告警体系搭建。
4. 熟悉等保 2.0、公安备案、服务器合规管理、数据跨境合规基础要求,可输出技术架构文档、合规备案资料。
5. 能熟练应用英语书面及口语交流,可配合海外业务做技术对接;责任心强、抗压能力强,能快速处理突发故障,沟通协同能力优秀。
1.负责国产算力卡(昇腾/寒武纪)推理集群搭建、IDC内网运维、跨境专线网络调度、AI 模型推理部署、系统稳定性维护、技术合规备案全流程工作。
2.搭建统一监控体系,远程监控所有 GPU 运行负载、算力利用率、温度、在线状态、异常掉线告警,保障 7*24 小时稳定运行。
3.负责服务器系统维护、环境配置、驱动迭代、推理服务更新与故障修复。
4.对接园区机房运维,协同处理断电、断网、硬件故障、机房调度问题,保障业务持续可用。
5.优化国内算力节点到新加坡、海外网络专线通道,降低推理延迟、解决丢包、掉线、抖动问题,提升海外客户使用体验。
6.维护AI推理服务、API调度系统、算力资源管理系统,保障推理服务稳定输出。
7.负责算力用量、Token消耗、设备产出统计,输出精准运维报表、对账数据、运营数据。
8.负责新增GPU设备上架、组网、集群并入、服务上线,完成算力扩容落地。
9.负责公司技术合规体系建设:网络安全、等保、系统备案、数据出境合规资料整理,保障业务全程合规。
二、任职资格
1. 本科及以上学历,计算机、人工智能、大数据、网络工程、软件工程等相关专业。
2. 5 年以上IDC机房运维、云计算、GPU推理集群运维、AI算力租赁经验,做过 4090/国产昇腾/寒武纪推理集群部署项目经验优先。
3. 熟练掌握 Linux、Docker、网络架构、防火墙配置;精通 GPU监控、算力调度、推理服务部署、API接口搭建、Token用量计费统计、流量监控、告警体系搭建。
4. 熟悉等保 2.0、公安备案、服务器合规管理、数据跨境合规基础要求,可输出技术架构文档、合规备案资料。
5. 能熟练应用英语书面及口语交流,可配合海外业务做技术对接;责任心强、抗压能力强,能快速处理突发故障,沟通协同能力优秀。
工作地点
成都金牛区华侨城创想中心-B座

认证资质
营业执照信息

更新于 6月5日



