工作内容
1.设计并实现面向无人系统,具身飞行机器人的轻量级、高实时性操作系统内核,攻克“实时性-扩展性-稳定性”三难协同问题,
2.构建A|算子与OS资源调度的协同接口,使大模型推理任务可被OS感知、优先级调度与资源隔离;
3.开发针对NVIDIA和国产化的GPU/NPU等硬件的核心算子的高性能内核;
4.构建高性能算子库与自动化回归测试框架,支撑推理引整持续迭代;
5.使用Nsight Compute、Nsight Systems等工具定位性能瓶颈;
6.协同算法、系统团队,完成原型验证、工程化、产品化全链路闭环。
任职要求
1.硕士及以上学历,计算机系统结构、操作系统、基础软件、人工智能系统等相关专业;
2.5年以上操作系统或高性能计算领域研发经验,有机器人OS、CUDAKemel优化一项及以上深度实践;
3.精通C/C++、python,熱悉Linux内核机制(进程/线程、内存管理、中断、驱动框架);4.熟悉PyTorch/TensorFlow等至少一种深度学习框架,熟悉Transformer架构,熟悉VLMNLA;5.具备独立主导复杂模块(算子/GPU Kernel)的设计、开发、优化与文档化能力。