更新于 3月26日

大模型应用工程师

2.5-3万
  • 北京朝阳区
  • 经验不限
  • 本科
  • 全职
  • 招1人

雇员点评标签

  • 工作环境好
  • 同事很nice
  • 团队执行强

职位描述

大模型
岗位职责:
1.将训练好的CV/NLP/多模态或大模型(LLM、MoE)封装成高可用、低延迟的在线推理服务,完成容器化(Docker/K8s)与灰度发布。
2.设计 REST/gRPC 接口规范,实现版本管理、热更新、A/B 测试与回滚策略。
3.在 GPU/NPU 集群/端侧异构芯片上,通过算子融合、图优化、量化(INT8/FP8)、剪枝、TensorRT插件等手段,提升吞吐、降低 P99 延迟。
4.针对大模型进行 KV-Cache 优化、PagedAttention、连续批处理、模型并行/流水并行等加速方案落地。
5.搭建可横向扩展的分布式推理平台,支持多租户、高并发、弹性伸缩;集成负载均衡、流控、熔断的机制。
6.监控 GPU/CPU/内存/网络利用率,做动态调度与成本优化。
7.模型适配,包括且不限国产化适配。
任职要求:
1.计算机、电子、自动化等相关专业本科及以上,5年以上后端或 AI 工程化经验;要求有大模型高性能部署经验 。
2.熟练使用 Python/Go/C++ 至少两种,熟悉 Linux、网络、并发、数据结构及设计模式;具备高并发服务设计经验 。
3.熟悉 PyTorch/TensorFlow 生态,掌握 ONNX 转换、TensorRT、Triton、vLLM、TGI、SGLang 等推理框架中的 1-2 种。
4.理解 GPU 体系结构(CUDA、cuDNN、NCCL)、混合精度、KV-Cache 优化;有 CUDA kernel 或 Ascend C/OpenCL 开发经验更佳 。
5.熟悉 Kubernetes、Docker、Operator、Helm、Istio 等云原生技术栈,掌握 MySQL、Redis、Nacos、Prometheus 等常用组件 。
6.了解分布式存储、消息队列(Kafka/Pulsar)、日志采集与链路追踪。
7.要求有且不限于大模型及小模型的国产化适配。
8.对前沿推理技术保持敏感,并持续推动落地 。

工作地点

北京朝阳区宝能中心A座

认证资质

营业执照信息

职位发布者

薛女士/招聘主管

昨日活跃
立即沟通
公司Logo北京爱创科技股份有限公司
爱创科技,国际领先的追溯数字化解决方案提供商北京爱创科技股份有限公司,成立于2004年,是一家国际领先的追溯数字化解决方案提供商和工信部指定的国家标识解析二级节点建设单位。依靠自主研发的物联网数字技术,爱创科技为全球医药健康、快消品、工业品等行业客户提供“一物一码”数字化解决方案,通过采集真实、追溯可验证的商品唯一码数据,打通供应链、连接终端,触达消费者,帮助企业构建全产业链数字化体系。公司总部设在北京,在无锡和广州分别建有产业园区和智能工厂,在美国、欧洲设有海外办事机构,业务遍及全球20多个国家和地区。
公司主页