岗位职责:
方向1:
1. 参与算力服务器全生命周期维护:在导师指导下,学习并动手参与服务器的上架、下架、硬件升级及故障部件的识别与更换流程,了解从备件申领到维修闭环的完整操作;
2. 学习硬件故障分析与排查方法:通过处理模拟或初级告警,学习使用日志、诊断工具分析常见硬件问题,培养严谨的故障定位思维,并参与问题解决方案的复盘;
3. 支持系统运维与监控实践:协助完成操作系统安装、驱动更新等基础运维工作,参与定期的硬件健康巡检,学习监控平台的使用,了解硬件性能指标的基本含义。
方向2:
1. 接触前沿GPU算力设施:在团队支持下,参与NVIDIA GPU服务器及集群的日常操作与基础维护,了解其架构特点(如NVLink, InfiniBand);
2. 学习集群监控与性能初探:学习使用行业主流工具(如DCGM, Prometheus等)监控集群健康状态,认识GPU利用率、温度等关键性能指标,辅助团队发现潜在异常;
3. 融入技术协同流程:作为团队一员,了解与硬件供应商、研发、网络等多团队协作解决复杂技术问题的流程与方法,培养沟通协作能力。
方向3:
1. 学习数据中心基础设施运维体系:深入算力中心现场,在导师带领下学习暖通、电气、弱电、消防四大系统的运行原理、巡检标准与基础维护操作;
2. 参与日常运维与跨方协同:协助记录基础设施运行数据,建立运维台账;作为团队接口的延伸,参与同设施供应商(AIDC)的日常沟通与事务跟进;
3. 实践应急响应与持续优化:学习并参与执行基础设施应急预案(如断电、漏水)的演练与真实响应;基于运维数据,在团队指导下思考能效与可靠性优化点。
任职要求:
方向1:
1. 统招2026届本科及以上学历,电子、通信、计算机、自动化等相关专业;
2. 对硬件充满热情:熟悉计算机体系结构,对服务器硬件(如CPU、内存、硬盘、GPU)有浓厚兴趣,具备良好的动手能力和逻辑思维;
3. 具备问题排查潜质:了解Linux操作系统基础命令,乐于通过日志等信息分析和解决问题。了解常见的故障排查工具与方法;
4. 知识面较广:对RAID、高速网络(如InfiniBand)等服务器相关技术有基本概念;
5. 加分项:有电脑DIY、硬件拆装、电子竞赛或相关实习经历者优先。
方向2:
1. 统招2026届本科及以上学历,计算机、电子工程、人工智能等相关专业;
2. 技术追逐者:对前沿算力技术有强烈兴趣,了解GPU(如NVIDIA架构)的基本原理及其在AI、科学计算中的应用;
3. 基础扎实:熟悉服务器硬件组成与基本运维知识,了解Linux系统及主流运维工具;
4. 强大的学习能力:能够快速掌握复杂系统的运维方法,对大规模分布式系统集群的运维挑战充满好奇;
5. 加分项(满足任一即可显著加分):拥有NVIDIA相关认证(如NCA/NCP);有使用或运维GPU服务器/集群的项目或实习经验;在头部科技公司数据中心或云计算部门有过实习经历;对NVIDIA DGX、SuperPOD等参考架构有研究或实践。
方向3:
1. 统招2026届本科及以上学历,暖通空调、电气工程、建筑智能化、机电一体化、消防工程等相关专业;
2. 专业知识扎实:系统掌握暖通、电气、弱电或消防中至少一个方向的专业理论知识;
3. 具备系统思维:了解数据中心基础设施(精密空调、UPS、布线、消防系统)的基本构成与运行逻辑,对保障高可用性环境感兴趣;
4. 严谨负责:注重规范与细节,具备良好的安全意识和文档习惯;
5. 加分项:持有或正在考取相关职业资格证书(如电工证、制冷证、消防设施操作员、CDCP等);有相关领域实习或项目经验者优先。