职位描述
AI大模型聚合平台
岗位职责:
1. 多模型聚合架构搭建与迭代:负责主流开源大模型(通义千问、百川、Mistral、LLaMA、ChatGLM等)的统一接入、适配整合,搭建标准化大模型聚合服务平台,设计统一调用接口、参数适配规范,解决不同模型入参、出参、Prompt格式差异化问题。
2. 模型推理优化与工程落地:基于VLLM、Xinference、Ollama、LLaMA-Factory等推理框架,完成大模型量化、推理加速、批量处理优化,提升平台吞吐量、降低推理延迟,保障高并发场景下的服务稳定性。
3. RAG知识库与智能业务开发:负责检索增强生成系统的设计与落地,优化文档解析、文本向量化、召回排序、答案生成全流程,解决RAG召回不准、模型幻觉等核心问题;支持NL2SQL、智能问答、个性化搜索等业务场景落地。
4. 平台高可用能力建设:搭建平台负载均衡、限流、熔断、降级机制,实现模型热更新、故障容错、异常监控告警;处理线上显存溢出、推理超时、服务卡顿等突发问题,保障平台7*24小时稳定运行。
5. 多模态业务拓展:参与数字人直播、AI绘图、语音交互(ASR/TTS)等多模态模型的聚合适配与功能迭代,丰富平台多元化AI服务能力。
6. 业务对接与性能迭代:基于FastAPI/Flask搭建后端服务接口,对接前端、硬件设备及业务系统;持续优化平台响应速度、用户体验、业务转化效果,输出技术优化方案与迭代报告。
任职要求:
1. 学历与经验
本科及以上学历,计算机、人工智能、软件工程等相关专业,2-4年大模型应用、AI算法落地相关工作经验,有大模型聚合平台、RAG系统、智能问答平台落地经验者优先。
2. 核心技术能力
- 熟练掌握Python开发,熟悉Docker、Git等工程工具,具备完整的AI项目部署落地经验;
- 精通主流开源大模型(Qwen、Baichuan、Mistral、LLaMA等)的特性与场景适配,熟练使用VLLM、Xinference、Ollama等推理加速框架;
- 深入掌握RAG技术体系,熟练使用FAISS、ElasticSearch、Neo4j等检索工具,具备知识库搭建、召回优化、幻觉治理实战经验;
- 熟悉NL2SQL、Agent智能工具调用技术,能够落地复杂场景智能问答、数据检索业务;
- 掌握大模型量化(INT4/INT8)、批量推理、缓存优化等性能优化手段,具备高并发服务优化经验。
岗位福利:
工作时间:9:00-18:00,周末双休,五险一金。-
支持技术创新、方案试错,鼓励员工深耕技术、输出个人技术成果。
1. 多模型聚合架构搭建与迭代:负责主流开源大模型(通义千问、百川、Mistral、LLaMA、ChatGLM等)的统一接入、适配整合,搭建标准化大模型聚合服务平台,设计统一调用接口、参数适配规范,解决不同模型入参、出参、Prompt格式差异化问题。
2. 模型推理优化与工程落地:基于VLLM、Xinference、Ollama、LLaMA-Factory等推理框架,完成大模型量化、推理加速、批量处理优化,提升平台吞吐量、降低推理延迟,保障高并发场景下的服务稳定性。
3. RAG知识库与智能业务开发:负责检索增强生成系统的设计与落地,优化文档解析、文本向量化、召回排序、答案生成全流程,解决RAG召回不准、模型幻觉等核心问题;支持NL2SQL、智能问答、个性化搜索等业务场景落地。
4. 平台高可用能力建设:搭建平台负载均衡、限流、熔断、降级机制,实现模型热更新、故障容错、异常监控告警;处理线上显存溢出、推理超时、服务卡顿等突发问题,保障平台7*24小时稳定运行。
5. 多模态业务拓展:参与数字人直播、AI绘图、语音交互(ASR/TTS)等多模态模型的聚合适配与功能迭代,丰富平台多元化AI服务能力。
6. 业务对接与性能迭代:基于FastAPI/Flask搭建后端服务接口,对接前端、硬件设备及业务系统;持续优化平台响应速度、用户体验、业务转化效果,输出技术优化方案与迭代报告。
任职要求:
1. 学历与经验
本科及以上学历,计算机、人工智能、软件工程等相关专业,2-4年大模型应用、AI算法落地相关工作经验,有大模型聚合平台、RAG系统、智能问答平台落地经验者优先。
2. 核心技术能力
- 熟练掌握Python开发,熟悉Docker、Git等工程工具,具备完整的AI项目部署落地经验;
- 精通主流开源大模型(Qwen、Baichuan、Mistral、LLaMA等)的特性与场景适配,熟练使用VLLM、Xinference、Ollama等推理加速框架;
- 深入掌握RAG技术体系,熟练使用FAISS、ElasticSearch、Neo4j等检索工具,具备知识库搭建、召回优化、幻觉治理实战经验;
- 熟悉NL2SQL、Agent智能工具调用技术,能够落地复杂场景智能问答、数据检索业务;
- 掌握大模型量化(INT4/INT8)、批量推理、缓存优化等性能优化手段,具备高并发服务优化经验。
岗位福利:
工作时间:9:00-18:00,周末双休,五险一金。-
支持技术创新、方案试错,鼓励员工深耕技术、输出个人技术成果。
工作地点
郑州金水区正商国际大厦-A座2303

认证资质
营业执照信息

更新于 5月28日




