工作职责
1.模型部署与转换:负责将PyTorch/TensorFlow等框架训练的模型,通过ONNX等中间格式,转换并优化至特定硬件平台的推理引擎(如TensorRT、地平线工具链)。 2.极致性能优化:主导模型在NPU/GPU/DSP/BPU等异构计算单元上的性能调优。通过图优化、算子融合、内存管理、流水线并行等技术,持续降低延迟、提高吞吐量。
3.模型量化与压缩:实施并创新模型量化(INT8/INT4)、剪枝、蒸馏等压缩技术,在保证模型精度损失可控的前提下,大幅降低模型体积与功耗。
4.工具链与自动化:参与设计、开发和维护高效的模型部署与评测工具链,提升团队整体的交付效率与质量。
5.问题诊断与解决:构建模型在板端的性能与精度监控体系,快速定位并解决部署中出现的性能瓶颈、精度异常及稳定性问题。
6.跨团队协作:与算法团队紧密合作,提供模型设计阶段的部署友好性建议;与软件平台团队协作,确保驱动和运行时环境的稳定性。
任职要求
教育背景:统招本科及以上学历,45岁内
工作经验要求:
1、3年以上模型部署或高性能计算相关经验。
2、编程能力:熟练掌握C++(必备)和Python(必备)编程语言,具备扎实的代码能力和良好的软件工程习惯。
3、推理框架:至少深入理解并实践过一种主流推理框架,如TensorRT,OpenVINO,vLLM,ONNX,Runtime等,了解其核心原理和优化手段。
4、硬件经验:拥有在以下至少一个平台上的实际模型部署与优化经验:NVIDIA系列(如Orin,Xavier)、地平线系列(如Journey系列)、华为昇腾Qualcomm Snapdragon Ride
加分项:
①拥有大语言模型或视觉大模型 在端侧设备上的量化、部署与优化实战经验。
②熟悉计算机体系结构,对CPU/GPU/NPU的微架构、内存带宽、缓存机制有深入理解。
③有自定义算子开发或修改的经验,能够解决框架不支持的算子问题。
④具备自动驾驶感知(如目标检测、分割、跟踪)模型部署经验者优先。