岗位职责
1. 大模型本地化部署
- 搭建和维护本地大语言模型(LLM)运行环境,如基于 Ollama、vLLM、LocalAI 等开源框架部署模型;
- 根据业务需求选型合适的开源模型(如 claudecode、Qwen、DeepSeek、Mistral ,chatgpt等),并进行本地化适配与调优;
2. 算力基础设施规划
- 评估本地算力需求(GPU 型号、显存、服务器配置等),给出性价比最优的硬件采购或云服务租赁方案
- 搭建和管理 GPU 服务器集群,确保模型推理服务稳定高效运行
3. 商业大模型 API 对接
- 对接 OpenAI、Anthropic、百度文心、阿里通义等商业大模型 API
- 设计合理的调用策略(成本控制、限流、故障切换等)
4. AI 应用落地
- 将大模型能力集成到实际业务场景中(主要是金融方向);
- 搭建 RAG(检索增强生成)系统,实现基于企业私有数据的问答;
- 构建内部 AI 工具平台,降低团队使用 AI 的门槛;
5. 持续优化
- 跟踪 AI 领域最新进展,持续评估和引入更优模型及工具
- 优化推理性能、降低延迟和成本
任职要求
必须具备
- 有实际部署过开源大模型的经验(不是仅会调 API,而是真正跑通过本地部署)
- 熟悉 Linux 服务器运维,能独立完成从装机、驱动安装到模型服务上线的全流程
- 熟悉 Python,能编写模型服务接口和自动化脚本
- 了解 Docker / Docker Compose,能容器化部署 AI 服务
- 熟悉至少一种模型推理框架(vLLM / Ollama / llama.cpp / TGI 等)
- 有主动学习能力,能快速跟进 AI 领域的快速迭代
加分项
- 有模型微调(Fine-tuning / LoRA)经验
- 熟悉 RAG 架构,用过向量数据库(如 Milvus、Chroma、Weaviate)
- 有 NVIDIA GPU 集群管理经验(CUDA、多卡并行推理)
- 了解 Kubernetes(K8s)容器编排
- 有 LangChain / LlamaIndex 等 AI 应用框架使用经验
- 有成本意识,能在性能和成本之间做出合理权衡
软性要求
- 实战导向,拿结果说话,不搞花架子
- 能用非技术语言向团队解释技术方案
- 自驱力强,不需要手把手指导
双休,薪资待遇面议,工作地点宁波慈溪