职位描述
大模型算法RAGPythonAGENTAI人工智能工业自动化
岗位职责
1. 主导AI Agent全生命周期的体系化构建
深度参与从需求定义、架构设计、核心模块开发到持续迭代优化的完整流程,聚焦任务自动化编排、工具调用链路可靠性、上下文感知的多轮对话管理等关键技术环节,打造具备自主决策能力、强泛化性与高鲁棒性的企业级智能体系统,驱动业务流程从“自动化”向“认知智能化”跃迁。
2. 推进大模型在复杂企业场景中的工程化落地
主导Qwen3.0、DeepSeek-V3等前沿大语言模型在私有化环境下的部署、量化、推理加速与安全隔离;结合业务语义特征,设计并实施基于LoRA、QLoRA或全参数微调的定制化训练策略,实现模型能力与垂直领域知识的高度对齐,并通过A/B测试、指标监控与反馈闭环持续优化推理质量与响应效率。
3. 构建高精度、低延迟的RAG增强系统
从底层向量索引(如FAISS、Milvus)选型、文本分块策略、嵌入模型(Embedding Model)微调,到检索-生成协同机制(如HyDE、ReAct-RAG、Self-RAG)的设计,端到端打造支持多源异构数据(结构化/非结构化)、具备动态更新能力的企业级RAG引擎,显著提升生成内容的事实一致性、时效性与可追溯性。
4. 推动AI原生应用场景的规模化落地
统筹智能客服、数字人交互、企业知识中枢等关键场景的技术方案设计与跨团队协同实施,打通NLU、对话管理、TTS/ASR、知识图谱等模块,构建统一Agent运行时框架;负责性能压测、容灾设计、日志追踪与可观测性体系建设,确保系统在高并发、多租户、长周期运行下的稳定性与SLA达标。
任职要求
1. 技术能力
• 精通Python生态,深入掌握asyncio事件循环机制、GIL影响下的并发模型、以及高性能I/O处理模式(如aiohttp、FastAPI、uvloop),能针对LLM推理服务设计低延迟、高吞吐的异步流水线。
• 熟练使用Docker/Kubernetes容器编排,具备在混合云或边缘节点部署大模型服务的实际经验,熟悉模型服务化框架(如vLLM、Xinference , SGlang)。
2. 专业知识
• 对Transformer架构、注意力机制、KV Cache优化等大模型底层原理有扎实理解;
• 深入掌握RAG系统的瓶颈与优化路径(如查询重写、多跳检索、reranker集成、幻觉抑制),并熟悉Agent核心范式(如ReAct、Plan-and-Execute)及其工程实现挑战;
• 具备至少一个完整AI Agent或RAG项目的端到端交付经验,能独立完成从POC验证到生产上线的全栈技术攻坚。
3. 思维与视野
• 对AI Agent如何重构企业工作流、人机协作边界及组织智能具有深刻洞察,能前瞻性识别技术拐点与业务结合机会;
• 具备系统工程思维,能在模型能力、数据质量、用户体验与运维成本之间做出合理权衡。
4. 加分项(高阶能力)
• 熟悉主流Agent开发框架(如LangChain、LlamaIndex、Dify、RagFlow)的内部机制,曾对其进行二次开发或性能改造;
• 有大模型本地化部署经验(支持4-bit/8-bit量化、FlashAttention、PagedAttention等),并完成过基于真实业务数据的SFT或RLHF微调;
• 在开源社区有贡献记录者优先。
1. 主导AI Agent全生命周期的体系化构建
深度参与从需求定义、架构设计、核心模块开发到持续迭代优化的完整流程,聚焦任务自动化编排、工具调用链路可靠性、上下文感知的多轮对话管理等关键技术环节,打造具备自主决策能力、强泛化性与高鲁棒性的企业级智能体系统,驱动业务流程从“自动化”向“认知智能化”跃迁。
2. 推进大模型在复杂企业场景中的工程化落地
主导Qwen3.0、DeepSeek-V3等前沿大语言模型在私有化环境下的部署、量化、推理加速与安全隔离;结合业务语义特征,设计并实施基于LoRA、QLoRA或全参数微调的定制化训练策略,实现模型能力与垂直领域知识的高度对齐,并通过A/B测试、指标监控与反馈闭环持续优化推理质量与响应效率。
3. 构建高精度、低延迟的RAG增强系统
从底层向量索引(如FAISS、Milvus)选型、文本分块策略、嵌入模型(Embedding Model)微调,到检索-生成协同机制(如HyDE、ReAct-RAG、Self-RAG)的设计,端到端打造支持多源异构数据(结构化/非结构化)、具备动态更新能力的企业级RAG引擎,显著提升生成内容的事实一致性、时效性与可追溯性。
4. 推动AI原生应用场景的规模化落地
统筹智能客服、数字人交互、企业知识中枢等关键场景的技术方案设计与跨团队协同实施,打通NLU、对话管理、TTS/ASR、知识图谱等模块,构建统一Agent运行时框架;负责性能压测、容灾设计、日志追踪与可观测性体系建设,确保系统在高并发、多租户、长周期运行下的稳定性与SLA达标。
任职要求
1. 技术能力
• 精通Python生态,深入掌握asyncio事件循环机制、GIL影响下的并发模型、以及高性能I/O处理模式(如aiohttp、FastAPI、uvloop),能针对LLM推理服务设计低延迟、高吞吐的异步流水线。
• 熟练使用Docker/Kubernetes容器编排,具备在混合云或边缘节点部署大模型服务的实际经验,熟悉模型服务化框架(如vLLM、Xinference , SGlang)。
2. 专业知识
• 对Transformer架构、注意力机制、KV Cache优化等大模型底层原理有扎实理解;
• 深入掌握RAG系统的瓶颈与优化路径(如查询重写、多跳检索、reranker集成、幻觉抑制),并熟悉Agent核心范式(如ReAct、Plan-and-Execute)及其工程实现挑战;
• 具备至少一个完整AI Agent或RAG项目的端到端交付经验,能独立完成从POC验证到生产上线的全栈技术攻坚。
3. 思维与视野
• 对AI Agent如何重构企业工作流、人机协作边界及组织智能具有深刻洞察,能前瞻性识别技术拐点与业务结合机会;
• 具备系统工程思维,能在模型能力、数据质量、用户体验与运维成本之间做出合理权衡。
4. 加分项(高阶能力)
• 熟悉主流Agent开发框架(如LangChain、LlamaIndex、Dify、RagFlow)的内部机制,曾对其进行二次开发或性能改造;
• 有大模型本地化部署经验(支持4-bit/8-bit量化、FlashAttention、PagedAttention等),并完成过基于真实业务数据的SFT或RLHF微调;
• 在开源社区有贡献记录者优先。
展开该职位详情




