岗位职责:
1.负责一站式机器学习平台的研发与迭代,包括前端、后台、平台任务流设计与研发,开发高并发高可用的机器学习MLOps平台,实现常规AutoML集成学习、强化学习、多模态等算法,配合研究员开拓AI在高端复杂工业领域的应用
2.搭建高并发分布式的推理平台,搭建稳定高可用计算集群(GPU&CPU基础设施),持续跟进业界先进开源组件、方案并落地到项目中,实现自动化、健康检查、实时性能监控等
3.维护机器学习模型数据、训练和部署,负责线上算法的日常运营,能够及时响应故障报警、快速解决问题恢复业务
4.推动工业大模型的开发落地,持续推进优化模型效果
任职要求:
1.计算机相关专业,硕士及以上3年或211本科5年以上开发经验,有扎实的编程基础,具有DevOps\MLOps相关背景优先
2.熟练掌握python(pandas),熟悉C++或go,熟悉数据库操作
3.熟悉kubernetes架构及基本使用,具有kubernetes开发能力者优先。熟悉多项大数据处理工具/分析工具如spark\hdfs等
4.熟悉图像、推荐、NLP算法一类或几类(大语言模型、SAM\ViT、widedeep\DCN、AutoGluon等),了解深度学习框架,了解数据并行、模型并行
5.有前沿模型研发经验,涉及数据、评估、平台相关工作
6.有大规模分布式架构设计或使用经验
7.熟悉Linux基础操作、配置、日志排查等
8.能较好阅读英文论文、跟进前沿技术并落地相关算法
9.要求候选人性格稳重、主动思考、抗压、学习能力强、有较好的合作意识、较好的团队合作能力、有志在芯片及半导体行业发展