更新于 11月26日

Golang 系统后端工程师

1.6-3万
  • 北京东城区
  • 3-5年
  • 本科
  • 全职
  • 招1人

职位描述

K8s人工智能计算机软件
岗位描述:
1. 负责算力调度系统后端的系统设计与核心功能开发,构建统一的多集群算力纳管与任务调度平台。
2. 实现对不同计算集群的资源纳管,构建统一资源模型与心跳上报系统。
3. 开发统一的任务接入层,提供标准化任务提交、任务状态管理、作业生命周期管理等能力,实现一套接口调度多集群。
4. 构建高并发调度控制平面,包含调度周期、事件队列、缓存、调度策略、调度插件等模块。
5. 参与万级节点规模的资源数据采集、状态同步、指标聚合架构设计与性能优化工作。
6. 在多集群基础上开发调度扩展能力,包括 GPU 资源细粒度调度、负载感知调度、能耗优化、抢占与迁移等高级调度策略。
7. 参与调度系统的高可用架构设计,包括故障恢复、状态一致性、数据缓存、流量控制等。
8. 撰写设计文档、接口文档、调度策略说明文档,参与方案评审与架构优化。
任职资格:
1. 统招本科及以上学历,计算机、软件工程、通信、自动化等相关专业;熟悉 Linux 基础、TCP/IP、系统架构等核心知识。
2. 精通 Golang,对 Goroutine、Channel、锁、内存模型等并发机制有深入理解;近 2 年有 至少 2 个 Go 语言主导或深度参与的项目经验。
3. 熟悉分布式系统原理,对心跳、调度周期、状态机、缓存、消息队列、RPC 等概念有实际开发经验。
4. 具备使用或对接过任意调度系统的经验(Slurm / Kubernetes / YARN 等),了解其资源模型与任务模型。
5. 有服务端开发经验,熟悉 REST/gRPC、Gin/Fiber 框架、MySQL/Redis/etcd 等常用组件。
6. 具备优秀的代码质量意识与工程能力,熟悉版本管理、单元测试、性能调优等工程实践。
7. 具备良好的沟通能力、责任意识与团队协作能力,对高性能、高可用系统有浓厚兴趣与追求。
加分项:
1. 有 Slurm API / REST / RPC 对接经验,或理解 Slurm 的任务模型、调度队列、资源抽象。
2. 有 Kubernetes 深度使用或二次开发经验,包括但不限于:
1)自定义 Operator
2)自定义调度器 / 调度扩展(SchedulerExtender)
3)CRD 设计
4) K8s 多集群管理
5) CSI/CNI 插件开发
6)熟悉 Volcano、Kueue、Karmada 等调度生态
3. 有多集群系统或大规模 GPU 集群经验。
4. 有数据密集型或高并发系统性能调优实践。
了解 AI 计算、GPU 调度、作业排队、GPU 多机训练场景者优先。

工作地点

北京市东城区和平里东街11号航星科技园南门南侧2层

职位发布者

潘屏屏/人力资源

昨日活跃
立即沟通
公司Logo北京华恒盛世科技有限公司
我们的优势:l团队优势:与业内顶级的云运算架构师、超算高性能计算专家和人工智能专家比肩共事。l科研氛围:获得与国家级学者和众多大厂技术大咖们合作项目、探讨学习的宝贵机会,实际案例演练,引领行业最新技术概念。l行业高度:参与复杂大规模计算行业解决方案的开发,与国产芯片、操作系统和服务器厂商共同设立复杂大规模计算行业标准。l自我成长:明确的内容分工、成熟的体系架构、自由的沟通机制和愉悦的成长环境,让你的成长速度横扫业内同期。企业简介:北京华恒盛世科技有限公司汇集国内一流的系统开发及市场营销团队,拥有多项专利和软件著作权,与国内领先的芯片、数据库及操作系统厂商紧密合作。公司数年来在超算大规模计算以及人工智能领域垂直发展,成功打造超算技术领域中第一款全国产化的核心系统软件。同时公司拥有智能运维系统、容器云和卫星图片智能识别及修复系统等产品配套,打造出全新概念的复杂大规模计算云平台,行业案例实际运用于核心政府部门。企业资质中国云联盟理事单位信创会员单位超级计算创新联盟成员单位拥有国家高新技术企业证书国家“专精特新”认证企业ISO9001认证证书ISO27001认证证书ISO20000认证证书CMMI3认证证书信息技术服务标准符合性三级证书(ITSS)中关村高新技术企业证书AAA级信用等级证书。
公司主页