更新于 1月6日

政企技术经理主办

2.5-5万·14薪
  • 杭州拱墅区
  • 5-10年
  • 硕士
  • 全职
  • 招1人

职位描述

云计算/大数据通信/网络设备
(一)岗位职责
1、硬件部署与集成:基于售前顶层设计方案与项目合同,主导制定行业领先的交付实施计划(含风险预判模型与资源最优配置方案)。牵头超大规模智算中心(万卡级)基础设施部署与集成,独立统筹算力集群、高速 RDMA 网络、全闪存存储系统、高密度制冷与冗余供电等核心设施的现场实施,主导跨厂商硬件兼容性测试、系统联调与集成验证。
2、软件配置与优化:负责定制化智算平台软件与调度系统的架构搭建、部署配置,主导完成操作系统内核优化、容器平台(K8s)高可用集群搭建、高性能作业调度系统(如 Slurm/LSF)定制开发、分布式存储(如 Ceph)性能调优、AI 框架(TensorFlow/PyTorch)适配优化。
3、性能调优与稳定性保障:构建智算系统全维度性能测试体系(含算力、网络带宽 / 延迟、存储 IOPS / 吞吐量等核心指标),运用专业工具(如 Perf、NVIDIA DCGM)进行深度瓶颈分析,主导制定并落地针对性调优方案(如 GPU 集群通信优化、存储分级缓存策略调整),确保系统性能超越设计指标 10%-15% ,且 7×24 小时稳定运行率达 99.99%。
4、问题解决与协调:作为技术核心,快速响应并牵头解决部署、联调及试运行阶段的重大技术难题(如跨架构硬件兼容性故障、大规模集群网络拥塞、软件栈深度适配问题),统筹协调内外部顶级技术资源(如厂商专家、高校科研团队)进行根因分析。
5、项目交付支撑:主导构建标准化交付文档体系,输出具备行业参考价值的实施计划、部署图纸、配置清单、测试报告(含性能对比分析)、运维手册(含故障应急响应流程)及培训资料,牵头完成客户运维团队的体系化技术培训。
(二)任职要求
1、教育背景:985硕士研究生及以上学历优先,通信工程、电子信息工程、计算机科学与技术、软件工程等相关专业。
2、工作经验:具备智算中心、超算中心或大型数据中心项目交付、系统集成实际操作经验。主导过至少1 个从零到一建设的万卡级及以上智算集群交付项目(需含 GPU/NPU 混合架构),具备万卡级集群大模型训练,微调,推理的参数面优化经验。有国家级 / 省级重点智算项目(如政务智算中心、AI 大模型训练集群)核心交付经验者优先。具备互联网大厂工作经验优先。
3、网络技术:精通数通网络理论与实践,深入掌握 TCP/IP、HTTP、RoCEv2、IB 等协议原理及优化方案,能独立完成超大规模智算中心网络架构(含 Spine-Leaf 拓扑、RDMA 网络)的规划与设计;熟练使用 Python/Ansible 编写数据中心级交换机自动化部署脚本,具备万兆 / 四十万兆网络独立调试、全网联合调试及故障定位能力,曾主导解决过大规模集群网络拥塞、延迟超标等核心问题。
4、硬件知识:精通 X86/ARM 架构服务器(如华为 TaiShan、浪潮 NF 系列)、SAN 存储(如 EMC VMAX)、分布式存储(如 Ceph、GlusterFS)技术原理与部署优化;深入掌握主流算力厂商(NVIDIA、华为昇腾、寒武纪)GPU/NPU 产品技术细节(如算力卡型号差异、集群互联方案),能独立评估并选型适配不同业务场景的硬件解决方案,曾主导过跨厂商硬件混合部署的技术攻坚。
5、软件与平台:精通 Windows Server、Linux Server(CentOS/Ubuntu/RedHat)系统运维与内核优化;熟练使用 Shell/Python(需具备至少 1 个自主开发的运维工具或自动化脚本项目经验)。精通 OpenStack 云平台(含 Nova、Neutron、Cinder 模块)、Docker/K8s 容器技术的部署、调优与故障排查,熟悉大模型训练推理的分布式计算框架,具备大规模容器集群(千节点级)运维经验。熟悉 AI 框架(TensorFlow/PyTorch/MindSpore)部署与优化,有 AI 训练任务调度效率提升项目经验者优先。
6、认证证书:持有HCIE-Data Center/Cloud/Storage、CCIE Data Center 、RHCE/RHCA、NVIDIA DCAT 等专业认证优先;有云计算、AI 算力相关专利或核心技术论文(第一作者)者优先。

工作地点

杭州拱墅区浙江移动数智科技有限公司

职位发布者

马先生/招聘管理

立即沟通
公司Logo浙江移动数智科技有限公司
浙江移动DICT中心/浙江移动数智科技有限公司,采用一套人马两块牌子(对内是DICT中心,对外是浙移数科),专注于行业研究和产业洞察、数智化端到端解决方案、行业项目全流程交付管理、自主核心能力建设等。浙移数科是浙江移动全资子公司,负责全省DICT市场服务能力整合、集成、运营,迄今累计承接项目超320亿元,管理信息化项目20000余个。部门专注于AI+DICT一体化项目集成、产品研发、平台运营、云网技术,主营业务遍及党政、军警司法、住建、农业文宣、连锁商业、交通、制造、能源、银行、证券保险、教育、医卫、互联网等十五大行业领域。部门近年来紧跟产业发展持续深化能力建设,初步形成“6+N”自主能力矩阵,即6大通用能力:大专网、大数据、大算力、大智能、大安全、大视频,N个专项能力:低空经济、车路云、中小企业数字化、园区社区等。目前正加快发力低空经济、车路云、数据要素市场化等新赛道,紧密跟踪人形机器人、量子科技等前沿领域。现有专家队伍规模超1000人,拥有行业领先的专业资质认证87项,积累各类知识产权近200项。部门下设解决方案、交付管理、售后服务、智慧城市、数智工业、平台运营、算力网络、视频安全、数据产品研发和运营等16个部室,先后与华为、阿里、海康等头部企业及之江实验室、北大信研院、清华长三角研究院等顶尖研究院所建立了深入的合作关系,对助力浙江建设两个先行示范区、赋能区域经济发展、服务社会民生发挥了重要作用,先后获评浙江省服务业百强企业、十大领军型浙江数商、省级数字化服务商、杭州市鲲鹏企业等荣誉。
公司主页