岗位职责
1、AI软件栈的架构设计、开发与优化,负责从模型接入、图优化、算子实现到运行时调度的完整AI软件栈的核心模块开发。
2、主导TFLite、ONNX Runtime、Paddle Lite等推理引擎在自研芯片上的端到端移植、适配与稳定性保障。
3、进行系统级深度优化,包括但不限于:模型图层的算子融合、常量折叠、内存复用优化等。
4、设计与实现针对芯片内存 hierarchy(缓存、DDR)的高效数据搬运策略,极致压榨硬件带宽。
5、负责核心神经网络算子(如Conv、Pooling、Matmul等)在NPU/GPU/DSP/CPU上的高性能实现,充分利用硬件特性(如张量核心、矢量指令)。
6、开发与优化模型编译工具链,实现自动化的计算图分割、调度与异构计算任务分配。
7、参与或主导面向自研硬件指令集的代码生成与优化。
8、深化QAT开发:不仅实现标准训练后量化(PTQ),更需开发完整的量化感知训练(QAT)流程与工具,解决模型在低精度(INT8/INT4)下的精度损失问题。
9、为战略客户的关键AI模型提供深度的适配、调优与部署支持,解决复杂技术难题,成为客户信赖的技术专家。
10、编写详尽的技术文档、最佳实践指南和示例代码,降低开发门槛,赋能客户与合作伙伴。
11、持续跟踪AI框架、编译器(TVM/MLIR)、芯片设计等领域的前沿动态,进行技术预研并将其价值引入产品路线图。
12、使用高级性能分析工具(如Perf, VTune, 自定义Profiler)进行系统级瓶颈定位,推动软硬件协同优化。
任职资格
1、计算机科学、电子工程、人工智能、数学等相关专业硕士及以上学历(特别优秀的本科生可放宽)。
2、精通C++/C,熟练使用Python进行脚本开发、原型验证和自动化工具构建。
3、熟悉Linux内核驱动模型,具备一定的底层系统调试能力(如使用gdb, perf, ftrace)。
4、熟悉至少一种主流AI框架(PyTorch或TensorFlow)的底层架构、计算图表示和运行时机制。
5、熟悉CNN、Transformer等主流模型的原理和计算特性。对模型量化和压缩理论有深入理解。
6、熟悉计算机体系结构,对CPU/GPU/NPU的微架构、内存子系统、缓存一致性、数据并行有深刻理解。
7、拥有AI模型在边缘设备或芯片上部署和优化的实战经验,深刻理解TFLite、ONNX Runtime等推理引擎的内部原理。
8、有AI编译器(TVM、MLIR、XLA等)的开发或深度定制经验优先。