岗位职责:
1.将训练好的CV/NLP/多模态或大模型(LLM、MoE)封装成高可用、低延迟的在线推理服务,完成容器化(Docker/K8s)与灰度发布。
2.设计 REST/gRPC 接口规范,实现版本管理、热更新、A/B 测试与回滚策略。
3.在 GPU/NPU 集群/端侧异构芯片上,通过算子融合、图优化、量化(INT8/FP8)、剪枝、TensorRT插件等手段,提升吞吐、降低 P99 延迟。
4.针对大模型进行 KV-Cache 优化、PagedAttention、连续批处理、模型并行/流水并行等加速方案落地。
5.搭建可横向扩展的分布式推理平台,支持多租户、高并发、弹性伸缩;集成负载均衡、流控、熔断的机制。
6.监控 GPU/CPU/内存/网络利用率,做动态调度与成本优化。
7.模型适配,包括且不限国产化适配。
任职要求:
1.计算机、电子、自动化等相关专业本科及以上,5年以上后端或 AI 工程化经验;要求有大模型高性能部署经验 。
2.熟练使用 Python/Go/C++ 至少两种,熟悉 Linux、网络、并发、数据结构及设计模式;具备高并发服务设计经验 。
3.熟悉 PyTorch/TensorFlow 生态,掌握 ONNX 转换、TensorRT、Triton、vLLM、TGI、SGLang 等推理框架中的 1-2 种。
4.理解 GPU 体系结构(CUDA、cuDNN、NCCL)、混合精度、KV-Cache 优化;有 CUDA kernel 或 Ascend C/OpenCL 开发经验更佳 。
5.熟悉 Kubernetes、Docker、Operator、Helm、Istio 等云原生技术栈,掌握 MySQL、Redis、Nacos、Prometheus 等常用组件 。
6.了解分布式存储、消息队列(Kafka/Pulsar)、日志采集与链路追踪。
7.要求有且不限于大模型及小模型的国产化适配。
8.对前沿推理技术保持敏感,并持续推动落地 。