工作职责
1. 同AI大模型客户沟通交流,深入了解客户需求,提供专业的技术解决方案,帮助客户实现业务目标。
2. 协助客户排查和解决AI云使用过程中的各种问题,包括但不限于服务中断、性能降低、性能调优以及代码级问题的定位和解决,确保用户获得最佳的使用体验。
3. 负责AI大模型训练和推理过程的程序性能分析,识别瓶颈并进行优化,以提高模型的运行效率和准确性。
4. 参与AI云平台的系统架构设计与优化,确保平台能够高效地支持大规模AI模型的训练和部署。
5. 负责监控和维护AI云服务的正常运行,包括定期进行系统健康检查和风险评估,确保服务的稳定性和安全性。
6. 撰写技术文档和使用手册,并为客户提供培训和技术指导,帮助客户及团队成员更好地理解和使用AI云服务。
任职要求:
1. 学历与经验要求:
- 本科及以上学历,计算机科学、软件工程、人工智能相关专业优先。
- 具备3年以上AI或云计算领域的工作经验,有大规模分布式系统参与经验者优先。
2. 技术能力:
- 熟悉主流深度学习框架(如TensorFlow, PyTorch等)及其模型训练和推理流程。
- 深入理解超算技术和架构,具备超算架构设计和优化能力。
- 深入理解云计算技术,具备云服务架构设计和优化能力。
- 掌握k8s、slurm的部署和使用。
- 有推理平台建设经验。
- 精通性能分析和性能调优工具及方法。
3. 问题解决能力:
- 优秀的问题诊断和解决技巧,能够快速响应和处理突发事件。
- 具备较强的代码分析和调试能力,能够迅速定位并解决代码级问题。
4. 沟通与协作能力:
- 具有优秀的沟通能力,能够与客户进行技术交流,理解并挖掘客户的需求。
- 具备良好的团队合作精神,能够与跨职能团队协调合作,共同实现项目目标。
5. 文档与培训能力:
- 具备撰写技术文档和使用手册能力,能够将复杂的技术概念转化为易于理解的材料。
- 能够为客户及团队成员提供有效的技术培训和指导。
6. 个人素质:
- 积极主动,具有较强的责任心和抗压能力。
- 具备良好的学习意识和创新能力,愿意持续关注最新的AI和云服务技术动态。