职位描述
岗位职责:
1、负责LLM/VLM大模型的部署和推理优化开发,包括量化、并行化等各种典型的优化工作,确保系统的高性能、高可用和低成本;
2、与业务、产品、算法等团队合作,共同致力提升模型在业务场景的效果;
3、探索一些前沿的推理加速技术,包括在新型GPU/NPU上的部署落地。
任职要求:
1、熟悉Transformers、Stable Diffusion等主流模型原理;
2、熟悉至少一种推理引擎框架(vLLM/Slang/ONNX Runtime或其他自研框架);
3、熟悉至少一种机器学习框架(TensorFlow/PyTorch/MxNet或其他自研框架);
4、了解GPU/NPU硬件特性,具备一定的性能调优经验;
5、有以下至少一项的背景知识与经验:GPU编程、模型量化、Kernel开发及优化;
6、良好的团队协作能力,有良好的动手实现能力,对技术有热情。