雇员点评标签
职位描述
医疗软件/IT服务
1.具有 5-8 年 IDC 运维行业经验,其中至少 2 年以上智算集群(GPU/NPU)建设或运维经验(特别优秀者可适当放宽学历与年限)。 2.具有丰富的服务器、存储、网络、安全设备集成建设工作经验,精通高端算力服务器(如NVIDIA DGX、国产昇腾/寒武纪等) 的集成部署;深入理解 RDMA 高速网络技术,具备 RoCE或 InfiniBand 组网规划、流量调优及故障排查能力。3.掌握 OpenStack、Docker 等容器技术,具备虚拟机与容器日常管理能力。 4.熟悉 Linux(CentOS/RHEL/Ubuntu)及国产主流操作系统(如麒麟、UOS、 OpenEuler),可独立完成系统部署、内核调优及日常维护。5.熟悉传统数通产品(交换机/路由器)及防火墙、VPN 等安全设备,具备 VLAN、OSPF/BGP、ACL 等规划配置能力。 6.熟练使用 Shell、Python,能实现批量运维自动化。 7.能够搭建并维护集群监控、 日志、告警体系,具备性能分析与容量规划能力 8.熟悉智算场景常用分布式存储,具备部署、性能调优及故障处理经验。9.具备出色的沟通能力和团队协作精神,能承受项目交付期的工作压力,适应项目交付节奏;具备主动服务意识和系统性故障排查能力,能独立解决集群实施与运维中的复杂问题。
1.协助项目经理,负责算力集群项目的整体规划、技术方案设计与实施交付,承担集群建设中的技术决策与关键问题攻关。 2.负责智算服务器(GPU/NPU)及通算服务器的集成部署、驱动安装、性能测试与日常运维。 3.设计并部署分布式存储系统,完成容量规划、性能调优及数据高可用保障。 4.负责 RDMA 高速网络及传统数通网络的组网规划 、配置优化 、拥塞控制(如PFC/ECN)及安全策略实施。 5.构建并维护集群的可观测性体系(监控、 日志、告警),持续优化资源利用率与系统稳定性。 6.基于 Kubernetes 进行算力资源的调度管理,解决容器化环境下的 GPU 共享、网络、存储等疑难问题。7.编写自动化脚本,实现集群的快速部署、扩缩容与灾备演练。 8.参与制定运维规范、故障应急预案及SLA 指标,负责重大故障的应急响应与根因分析。
1.协助项目经理,负责算力集群项目的整体规划、技术方案设计与实施交付,承担集群建设中的技术决策与关键问题攻关。 2.负责智算服务器(GPU/NPU)及通算服务器的集成部署、驱动安装、性能测试与日常运维。 3.设计并部署分布式存储系统,完成容量规划、性能调优及数据高可用保障。 4.负责 RDMA 高速网络及传统数通网络的组网规划 、配置优化 、拥塞控制(如PFC/ECN)及安全策略实施。 5.构建并维护集群的可观测性体系(监控、 日志、告警),持续优化资源利用率与系统稳定性。 6.基于 Kubernetes 进行算力资源的调度管理,解决容器化环境下的 GPU 共享、网络、存储等疑难问题。7.编写自动化脚本,实现集群的快速部署、扩缩容与灾备演练。 8.参与制定运维规范、故障应急预案及SLA 指标,负责重大故障的应急响应与根因分析。
工作地点
郑州管城回族区濮阳中心

公司信息
公司介绍
深圳市讯方技术股份有限公司创立于2001年4月,是国内信息技术服务全案佼佼者,目前拥有员工3900余人,总部位于国家现代化经济特区、国际科技产业创新中心——深圳,在全国各省市均设立有分支机构,在全国拥有17个办事处,政企及教育业务覆盖全国。讯方以承接华为信息技术服务项目起家,连续数年蝉联华为中国区金牌合作伙伴奖,获得科大讯飞优秀合作伙伴诚信奖,连续四年参与教育部产学合作协同育人项目合作,并获得优秀合作伙伴奖和优秀案例奖,现已发展成为一家多元化国家高新技术企业,入库深圳市第一批建设培育产教融合型企业。
工商信息
企业名称 深圳市讯方技术股份有限公司
企业类型 股份有限公司(非上市)
法人代表 戴毅
经营状态 存续
成立时间 2001-04-18
注册资本 5158万元
认证资质
营业执照信息

更新于 今天






