400-885-9898

更新于 3月26日

大模型应用工程师

2.5-3万

北京朝阳区
经验不限
本科
全职
招1人

雇员点评标签

工作环境好
同事很nice
团队执行强

职位描述

大模型

岗位职责:

1.将训练好的CV/NLP/多模态或大模型（LLM、MoE）封装成高可用、低延迟的在线推理服务，完成容器化（Docker/K8s）与灰度发布。

2.设计 REST/gRPC 接口规范，实现版本管理、热更新、A/B 测试与回滚策略。

3.在 GPU/NPU 集群/端侧异构芯片上，通过算子融合、图优化、量化（INT8/FP8）、剪枝、TensorRT插件等手段，提升吞吐、降低 P99 延迟。

4.针对大模型进行 KV-Cache 优化、PagedAttention、连续批处理、模型并行/流水并行等加速方案落地。

5.搭建可横向扩展的分布式推理平台，支持多租户、高并发、弹性伸缩；集成负载均衡、流控、熔断的机制。

6.监控 GPU/CPU/内存/网络利用率，做动态调度与成本优化。

7.模型适配，包括且不限国产化适配。

任职要求:

1.计算机、电子、自动化等相关专业本科及以上，5年以上后端或 AI 工程化经验；要求有大模型高性能部署经验。

2.熟练使用 Python/Go/C++ 至少两种，熟悉 Linux、网络、并发、数据结构及设计模式；具备高并发服务设计经验。

3.熟悉 PyTorch/TensorFlow 生态，掌握 ONNX 转换、TensorRT、Triton、vLLM、TGI、SGLang 等推理框架中的 1-2 种。

4.理解 GPU 体系结构（CUDA、cuDNN、NCCL）、混合精度、KV-Cache 优化；有 CUDA kernel 或 Ascend C/OpenCL 开发经验更佳。

5.熟悉 Kubernetes、Docker、Operator、Helm、Istio 等云原生技术栈，掌握 MySQL、Redis、Nacos、Prometheus 等常用组件。

6.了解分布式存储、消息队列（Kafka/Pulsar）、日志采集与链路追踪。

7.要求有且不限于大模型及小模型的国产化适配。

8.对前沿推理技术保持敏感，并持续推动落地。

工作地点

北京朝阳区宝能中心A座

认证资质

营业执照信息

完善一份简历
1736万+企业在线搜索，780万+海量职位精准推荐

相似职位

【快Star-X】多模态大模型算法工程师面议
北京
北京达佳互联信息技术有限公司
座舱算法工程1-1.5万
北京 - 海淀
软通动力信息技术(集团)股份有限公司
ai应用工程师9000-15000元
北京 - 海淀
经纬中天
【快Star-X实习】多模态生成算法工程师面议
北京 - 海淀
北京达佳互联信息技术有限公司
AI应用场景研发工程师（北京）(J15265)8000-13000元
北京 - 海淀
先进数通
算法工程师（数据挖掘/多模态方向）【2026届应届生】(J19562)面议
北京 - 通州
阳光保险集团

查看更多相似职位

职位发布者

薛女士/招聘主管

昨日活跃

立即沟通

北京爱创科技股份有限公司

爱创科技，国际领先的追溯数字化解决方案提供商北京爱创科技股份有限公司，成立于2004年，是一家国际领先的追溯数字化解决方案提供商和工信部指定的国家标识解析二级节点建设单位。依靠自主研发的物联网数字技术，爱创科技为全球医药健康、快消品、工业品等行业客户提供“一物一码”数字化解决方案，通过采集真实、追溯可验证的商品唯一码数据，打通供应链、连接终端，触达消费者，帮助企业构建全产业链数字化体系。公司总部设在北京，在无锡和广州分别建有产业园区和智能工厂，在美国、欧洲设有海外办事机构，业务遍及全球20多个国家和地区。

公司主页

关于我们: 公司介绍; 联系我们; 诚聘英才

产品与服务: 人才招聘; 企业招聘

使用与帮助: 账号注销; 意见反馈; 发票制度; 防骗指南; 法律协议; 资质公示

智联招聘更懂你的价值

智联app小程序官方微信企业版APP

京ICP备12025925号京ICP证010207号

京公网安备 11010502059392号人力资源许可证:1101051996081号

网上有害信息举报专区违法不良信息举报电话:400-885-9898 关爱未成年举报热线:400-885-9898-3

朝阳区人力资源与社会保障局监督电话

网络110报警服务电子营业执照