岗位职责:
1.大模型架构设计与优化:
研发面向语音识别场景的大规模语音模型(如端到端ASR、语音大模型),优化声学建模、语言建模及多模态融合技术;
探索轻量化大模型架构(如Transformer变体、稀疏模型),适配边缘端语音芯片的算力与功耗约束。
2.芯片算法协同开发:
与芯片NPU设计团队深度合作,适配NPU加速部署至自研语音芯片,优化推理延迟、内存占用及能效比;
设计模型压缩方案(量化、蒸馏、剪枝),实现高精度低比特模型在芯片端的落地。
3.数据与训练系统构建:
参与构建超大规模语音数据集,开发数据增强与自动标注pipeline,提升模型鲁棒性(抗噪、口音适应等);
搭建分布式训练框架,优化千亿参数级模型的训练效率与稳定性。
4.前沿技术探索:
跟踪语音大模型国际前沿(如Whisper、Conformer、Paraformer),推进自研模型在低资源唤醒、低信噪比等场景的性能突破;
5.技术赋能与支持:支持客户技术对接,解决实际应用中的识别率、实时性问题;
任职要求:
1.硕士以上学历,计算机科学、机器学习、人工智能、数学、控制科学与工程、自动化等相关专业,有至少一个完整的大模型落地案例;
2.熟悉大模型基础原理,了解主流大模型架构(如Transformer、LLaMA、GPT、CLIP),掌握大模型微调技术(如SFT、LoRA、QLoRA、Adapter);
3.精通Transformer、RNN-T、CTC等语音识别模型架构,有千亿参数级模型训练/部署经验;掌握PyTorch框架,熟悉DeepSpeed、Megatron等分布式训练工具;
4.具备模型压缩(INT8/FP16量化、知识蒸馏)及嵌入式部署经验(TensorRT、ONNX Runtime);了解芯片硬件特性(内存带宽、计算单元),能优化模型与硬件的匹配度;
5.深入理解语音信号处理流程(MFCC/FBank、端到端建模)、语音识别评测指标(WER);熟悉主流语音工具链(Kaldi、ESPnet、WeNet)及数据集(LibriSpeech、AISHELL);
6.熟练掌握C\C++\Matlab\Python编程语言的一种或多种,熟悉Linux操作系统;
7.逻辑思路清晰,较强的学习能力、创新能力和自驱力,一定的抗压能力,积极主动、责任心强、团队合作良好;
加分项:
8.有大语言模型、语音识别/合成、深度学习等研究或者技术背景;有语音芯片、边缘AI设备或云-端协同语音系统开发经验者更佳。
9.在语音领域发表过顶级会议文章(NIPS、ICML、ICLR、ACL、ICASSP、INTERSPEECH等)更佳。