【岗位职责】
1. 核心算法设计与多模态落地
负责大语言模型(LLM)及多模态模型(Vision-Language)的选型、微调(SFT/LoRA)与优化,主导 RAG(检索增强生成) 架构的设计与实现。
针对业务场景设计 多智能体(Multi-Agent) 协作流程,结合工具调用(Function Calling)解决复杂任务。
负责 向量数据库 的选型与搭建,设计高效的嵌入(Embedding)策略与检索排序算法,提升知识库问答的准确率与召回率。
2. 算法工程化与服务开发
负责算法模型的 服务化封装,使用 Python(FastAPI/Flask)开发高性能推理接口,处理并发请求与异步任务。
主导模型推理优化,通过 量化(Quantization)、剪枝、蒸馏 及使用推理加速框架(如 vLLM、TGI、TensorRT-LLM)降低延迟与显存占用。
配合后端团队完成算法服务与业务系统的集成,确保接口稳定性、数据传输安全及协议规范(HTTP/gRPC)。
3. 数据流水线与知识库构建
构建面向大模型的 数据预处理流水线,包括非结构化数据(文档、图片)的解析、清洗、分块(Chunking)及向量化存储。
建立 线上反馈闭环,利用用户日志进行 Badcase 分析,自动优化检索策略与微调数据集,持续迭代模型效果。
管理向量数据库的数据版本与一致性,确保知识库更新的实时性与准确性。
4. 系统支撑与性能调优
负责算法模块的 线上性能监控,分析推理耗时、显存占用及 Token 消耗,针对性优化代码逻辑与模型结构。
解决模型落地过程中的实际工程问题(如长上下文窗口管理、幻觉抑制、敏感词过滤),保障系统符合业务合规要求。
编写高质量的技术文档与接口文档,确保算法模块的可维护性与可交接性。
【任职要求】
1. 学历与经验
硕士及以上学历,计算机、人工智能等相关专业,1年以上 深度学习或大模型应用开发经验。
具备 独立主导 AI 项目从 0 到 1 上线 的成功案例,有实际支撑业务系统稳定运行的经验。
2. 大模型与算法技能
大模型技术栈: 精通 Transformer 架构,熟悉主流开源模型(Llama, Qwen, ChatGLM 等);熟练掌握 PEFT 微调技术(LoRA, P-Tuning, QLoRA)及 RLHF 流程。
RAG 与向量检索: 深刻理解 RAG 架构,熟练使用 LangChain / LlamaIndex 等框架;有 向量数据库(Milvus, Faiss, Elasticsearch, Pinecone 等)的实际开发与调优经验。
多模态能力: 熟悉多模态模型(如 CLIP, BLIP, LLaVA 等),具备图文匹配、OCR 识别或图像生成模型微调经验者优先。
框架掌握: 精通 PyTorch,具备复杂的模型修改与自定义训练循环编写能力;熟悉 HuggingFace 生态。
3. 工程开发与工具链(侧重 AI 工程化)
编程语言: 精通 Python,熟悉异步编程、多线程/多进程处理,具备良好的代码规范与设计模式意识。
模型部署: 熟悉模型导出格式,熟练使用 Docker 进行环境打包与交付;了解主流模型服务框架(vLLM, TGI, Triton Inference Server)。
开发工具: 熟练使用 Git 进行版本控制;熟悉 Linux 基本操作与脚本编写;熟练使用调试与监控工具。
数据库与接口: 熟练使用 SQL 及 NoSQL 数据库;具备 RESTful API 或 gRPC 接口设计与开发经验。
4. 问题解决与落地能力
具备较强的 Troubleshooting 能力,能独立排查模型推理报错、显存溢出(OOM)、数据加载瓶颈等问题。
理解 系统上线流程,熟悉灰度发布、A/B 测试机制,能配合测试团队完成算法效果评估与压力测试。
对业务敏感,能平衡算法效果与工程成本(如推理速度、算力成本),提出最具性价比的落地方案。