职位描述
大数据架构人工智能
岗位描述/Department Mission
• 负责大模型基础设施平台的设计和事实施
主要职责/Your Responsibilities (within 5 lines):
Technical key words (at least 3 words):
• 负责 AI 基础设施平台的整体架构设计与技术规划,主导 Infra 方案的落地实施;
• 搭建并优化大规模训练系统,确保稳定性,解决模型训练过程中的系统瓶颈问题,包括通信、存储、调度等关键环节;
• 主导分布式训练框架的选型、优化与二次开发,开发 GPU/加速器资源调度策略,持续提升训练效率与资源利用率;
• 与算法团队紧密协作,建立先进的训练调度机制、自动训练框架、模型评估体系;通过自动化、监控及性能调优,持续增强平台易用性、扩展性与可靠性
岗位要求/Required Qualification:
• 本科及以上学历,计算机、软件工程等相关专业,5 年以上工作经验
• 熟悉 MLOps 相关技术,有算法及框架在该领域的落地经验
• 精通分布式训练原理,熟悉 Megatron-LM、FSDP、Deepspeed 等主流分布式训练框架;
• 熟悉 GPU 集群架构、高性能网络(RDMA/InfiniBand)、并行存储系统;
• 熟悉 NCCL/Gloo 等通信库原理,有通信优化经验;
• 具备搭建评估系统或相关自动化工具的经验,对模型指标监控、对比测试、可视化工具(TensorBoard、MLflow 等)和可视化等有深入理解
加分项:
• 参与或主导过 AI 训练平台或数据平台的设计工作
• 参与或搭建过机器学习数据管理、模型监控、模型可解释性工具的经验
• 负责大模型基础设施平台的设计和事实施
主要职责/Your Responsibilities (within 5 lines):
Technical key words (at least 3 words):
• 负责 AI 基础设施平台的整体架构设计与技术规划,主导 Infra 方案的落地实施;
• 搭建并优化大规模训练系统,确保稳定性,解决模型训练过程中的系统瓶颈问题,包括通信、存储、调度等关键环节;
• 主导分布式训练框架的选型、优化与二次开发,开发 GPU/加速器资源调度策略,持续提升训练效率与资源利用率;
• 与算法团队紧密协作,建立先进的训练调度机制、自动训练框架、模型评估体系;通过自动化、监控及性能调优,持续增强平台易用性、扩展性与可靠性
岗位要求/Required Qualification:
• 本科及以上学历,计算机、软件工程等相关专业,5 年以上工作经验
• 熟悉 MLOps 相关技术,有算法及框架在该领域的落地经验
• 精通分布式训练原理,熟悉 Megatron-LM、FSDP、Deepspeed 等主流分布式训练框架;
• 熟悉 GPU 集群架构、高性能网络(RDMA/InfiniBand)、并行存储系统;
• 熟悉 NCCL/Gloo 等通信库原理,有通信优化经验;
• 具备搭建评估系统或相关自动化工具的经验,对模型指标监控、对比测试、可视化工具(TensorBoard、MLflow 等)和可视化等有深入理解
加分项:
• 参与或主导过 AI 训练平台或数据平台的设计工作
• 参与或搭建过机器学习数据管理、模型监控、模型可解释性工具的经验
工作地点
合肥蜀山区珠江路科技园

公司信息
公司介绍
公司成立于2016年,立足于软硬一体的人工智能技术,专注工业、金融、教育领域的AI解决方案。业务涵盖 AI+工业仿真、AI+具身安防机器人、AI+工业物联网、AI+数据治理、金融风控模型等领域。获得ISO9001、IS27001双认证、同时获得高新技术企业、科技型中小企业、市专精特新企业、瞪羚企业称号。 依托强大的AI数据治理能力,打造“个性化场景 + 专家模型 + 硬件设备”架构,公司构建“感知—决策—治理”闭环,实现从数据驱动的决策机制,持续推动传统工业或数字化企业向智能化转型。
工商信息
企业名称 长春风火轮科技有限公司
企业类型 有限责任公司(自然人投资或控股)
法人代表 李旭
经营状态 存续
成立时间 2016-05-23
注册资本 2068.89万元
认证资质
营业执照信息

更新于 今天




