岗位职责:
1. 负责语音模型(ASR/TTS)推理全链路优化,基于 sherpa-onnx、TensorRT、ONNX Runtime、Triton 等主流推理框架,设计高吞吐、低延迟、高可用的推理服务方案,支撑大规模语音交互场景落地。
2. 主导推理性能瓶颈分析与优化,涵盖模型量化、剪枝、算子融合、批处理策略设计等,提升 GPU/CPU 资源利用率,保障推理服务在高并发场景下的稳定性与响应速度。
3. 参与语音数据处理与推理服务一体化平台搭建,联动数据工程链路,优化推理数据输入格式、批量调度逻辑,支撑 ASR/TTS 模型迭代与大规模训练后的推理部署需求。
4. 持续跟踪行业前沿推理优化技术与工具链,探索合成数据在推理性能优化中的应用,推动推理服务自动化调优、动态资源调度等创新方向落地。
任职要求:
1. 本科及以上学历,计算机、机器学习、自动化、数据科学等相关专业,具备 1-3 年语音模型(ASR/TTS)推理优化或深度学习工程化落地经验。
2. 精通 Python 编程,熟悉 PyTorch 等主流深度学习框架,深入理解至少一种语音推理框架(sherpa-onnx/TensorRT/ONNX Runtime/Triton)的底层原理与优化方法,掌握模型量化(INT8/FP16)、剪枝、算子优化、批处理策略等推理加速技术,有实际语音模型推理性能提升案例者优先,有在昇腾NPU上做过语音模型适配经验者优先。
3. 具备良好的工程落地能力、问题排查能力与跨团队沟通协作能力,有自驱力,能主动跟踪行业技术趋势并应用于实际工作。
4. 有开源推理优化项目贡献、大规模语音推理服务搭建或性能优化经验者优先。