更新于 今天

AI大模型工程化工程师(中级 / 本地部署方向)

2-4万
  • 太原万柏林区
  • 1-3年
  • 本科
  • 全职
  • 招1人

职位描述

深度学习计算机软件人工智能
【岗位职责】
模型蒸馏与压缩: 负责将开源大模型(如 DeepSeek, Llama, Qwen 等)通过蒸馏、量化(AWQ, GPTQ, GGUF)、剪枝等技术,适配至公司指定的本地化硬件环境。
推理引擎开发: 负责搭建和优化高性能本地推理后端,利用 vLLM, TensorRT-LLM 或 TGI 等框架提升并发处理能力并降低首字延迟。
私有化部署: 设计并实施大模型在私有云或边缘计算节点(如 RTX 4090 集群、Mac Studio 或国产昇腾环境)的部署方案。
性能调优: 解决模型在本地运行中的显存溢出(OOM)、推理卡死、驱动兼容性等工程问题,持续优化 GPU 利用率。
工程化集成: 编写高效的 API 接口,对接业务系统,实现模型从训练到部署的自动化 Pipeline。
【任职要求】
教育背景: 计算机、自动化、数学等相关专业本科及以上学历,2 年以上 AI 相关工程经验。
模型经验: 熟悉大模型微调流程(LoRA, QLoRA),有实际的模型蒸馏或指令微调项目落地经验者优先。
部署方案: 深入理解 LLM 显存占用计算原理,熟练使用 vLLM / Ollama / llama.cpp 中的至少一种进行过生产级部署。
技术栈:
精通 Python 及 PyTorch 框架;
熟练掌握 Docker / NVIDIA-Docker 容器化技术及 Linux 系统底层运维;
了解 CUDA 编程或 Triton 算子优化者大加分。
硬件认知: 对 NVIDIA 显卡架构(如 Ada, Ampere)有清晰认知,有国产 AI 芯片(华为昇腾、寒武纪、海光)适配经验者优先。
解决问题能力: 能够独立阅读英文技术文档,对 Hugging Face 生态系统有深度使用经验。
【加分项】
在 GitHub 上有主流推理框架或大模型微调相关贡献者。
有过 70B 及以上参数量模型在有限算力下跑通推理的实战案例。
熟悉分布式推理

工作地点

太原市-万柏林区-长兴北街万象城北侧约200米华润大厦T3-3103

职位发布者

王女士/hr

今日活跃
立即沟通
公司Logo山西琦兰科技有限公司
山西琦兰科技有限公司,2013年成立以来一直专注于信息化领域的系统集成,致力于为客户提供全方位、高效且定制化的解决方案。我们的业务涵盖了软件开发与运维、机房建设、信息化会议室、远程视频会议、综合指挥大厅、弱电综合布线及室内外监控等多个方面。凭借多年的行业积淀和深耕,我们已在信息化领域取得了显著的成绩,尤其是在公检法行业中,积累了丰富的经验和技术优势。十多年来,琦兰科技始终专注于公检法领域的系统集成与服务,深耕省级、市级及区县级的公检法系统建设。我们拥有一支经验丰富、技术精湛的团队,致力于为政府部门提供精确、可靠的技术支持和解决方案。在过去的十年里,我们与众多公检法单位紧密合作,深刻理解行业需求与痛点,积累了宝贵的项目经验。在AI人工智能技术迅速发展的今天,琦兰科技紧跟科技前沿,与上海交通大学、中科院等国内顶尖科研院所形成了战略合作伙伴关系。依托这些强大的技术支持,我们在信息化系统集成的基础上,融入了人工智能、大数据分析、云计算等先进技术,极大地提升了系统的智能化、自动化水平,为客户带来了更高效、更精准的技术服务。我们深知每个客户的需求都是独特的,因此琦兰科技始终秉承着“以客户为中心”的原则,提供个性化、定制化的解决方案。无论是系统集成、软件开发,还是后期运维,我们都会结合客户的具体需求和行业特点,量身定制最优方案,确保每一项服务都能精准切合客户的实际需求。作为行业内的先行者,琦兰科技始终秉持着“品质为先,技术为本”的服务理念,不断提升自身核心竞争力。我们以客户需求为导向,持续优化技术研发与服务体系,力求为每一位客户提供最为先进、可靠且高效的技术支持。展望未来,琦兰科技将继续立足信息化领域,以创新为驱动力,结合人工智能、云计算等新兴技术,推动更多行业的智能化升级与转型。
公司主页