高并发AI推理架构设计
1、设计支持1000+ QPS的LLM推理服务架构,实现请求排队、动态批处理(Dynamic Batching)与优先级调度
2、 构建分布式推理集群,基于vLLM/TGI实现模型并行与流水线并行
3、 实现推理结果缓存层(Semantic Cache),通过向量相似度匹配降低重复计算,缓存命中率≥40%
实时数据流处理Pipeline开发
1、基于Apache Flink/Kafka
Streams构建实时数据流处理引擎,实现通话文本的实时清洗、向量化与意图识别,端到端延迟≤500ms
2、 设计Feature Store存储客户画像与对话特征,支持毫秒级特征查询与在线模型推理
3、 开发数据血缘追踪系统,实现从原始通话到分析结果的完整链路监控
智能决策引擎开发
1.构建基于LLM的意图识别与实体抽取系统,实现客户有效性判断准确率≥92%,F1-Score≥0.90
2.设计多阶段推理策略:轻量级BERT模型初筛(延迟<100ms)+ LLM精排(Top-K召回),平衡精度与成本
3.开发转人工决策算法,基于客户价值分(RFM模型)、问题复杂度、坐席负载实现动态路由
大模型应用优化与评估
· 构建RAG(检索增强生成)系统,整合知识库与案例库,实现检索准确率≥85%,生成结果幻觉率≤5%
· 设计Prompt版本管理与A/B测试框架,持续优化Prompt模板,提升意图识别准确率
· 建立模型评估体系(BLEU、ROUGE、人工评估),实现模型效果的持续监控与自动告警
数据资产与MLOps体系建设
· 构建数据标注平台与主动学习(Active
Learning)流程,实现低价值数据的自动过滤与高价值数据的智能标注
· 搭建LLMOps流水线,实现模型版本管理、自动微调(LoRA/QLoRA)与灰度发布
· 设计数据安全与隐私保护方案,实现敏感信息脱敏与通话数据加密存储
任职要求:
硬性条件:
· 计算机/数学/统计学相关专业本科及以上学历,3年以上大数据或AI工程经验
· 精通Python,熟悉PyTorch/TensorFlow,具备大模型应用开发经验(LangChain/LlamaIndex/AutoGPT)
· 深入理解分布式系统原理,熟悉Kafka、Flink、Spark Streaming等流处理框架,有实时计算项目经验
· 掌握向量数据库(Milvus/Pinecone/Weaviate)与Embedding模型应用,熟悉RAG架构设计
· 具备高并发系统设计经验,熟悉微服务架构、负载均衡、熔断降级等稳定性保障手段
· 加分项:
· 熟悉LLM推理优化技术(KV Cache、量化、投机采样),有vLLM/TensorRT-LLM部署经验
· 掌握NLP基础算法(BERT、GPT、T5),有文本分类、命名实体识别(NER)项目经验
· 了解AutoML与超参优化(Optuna/Ray Tune),有模型蒸馏与压缩经验
· 具备法律科技(LegalTech)或智能客服领域业务知识