AI 测试工程师

1.1-1.6万

上海闵行区
5-10年
本科
全职
招1人

职位描述

自动化测试AI测试人工智能

一、岗位定位（Role Purpose）
AI 测试工程师负责对基于大语言模型（LLM）的 AI Agent 系统进行系统性测试与质量保障，覆盖 Prompt、Agent 行为、工具调用、知识检索（RAG）、上下文管理、合规与风险边界等关键环节，确保 AI 系统在真实业务场景中稳定、可控、可解释、不越权、不误导。
该岗位是 AI 研发与业务落地之间的“安全与质量闸门”，直接支撑诺亚 AI 作为 “第二大脑” 的可靠运行。
二、岗位职责（Key Responsibilities）
1. AI / Agent 功能测试
参与 AI Agent（基于 GPT 等大模型）的功能测试与验收；
针对 Prompt、上下文管理、任务执行链路，设计测试用例并验证输出一致性与可控性；
验证 Agent 在多轮对话、复杂任务场景下的行为稳定性与逻辑正确性。
2. Prompt 与模型行为测试
测试 Prompt 在不同输入条件下的响应质量、边界行为与退化风险；
识别模型幻觉（Hallucination）、不完整回答、逻辑跳跃等问题；
协助沉淀 Prompt 测试样例库与评估标准。
3. RAG / 知识检索测试
测试基于 RAG 的知识检索准确性、召回率与引用一致性；
验证 AI 是否严格基于内部知识库内容回答，避免编造；
检查知识更新、缺失、冲突时的模型行为是否符合预期。
4. 工具调用与流程测试
测试 Agent 对内部工具/API 的调用逻辑、参数正确性与异常处理；
验证多步骤任务执行流程（如“理解 → 规划 → 执行 → 校验”）的完整性；
发现流程中可能导致越权、误用或失败的风险点。
5. 合规与风险测试（重点）
基于 AICOS / N-ARL 原则，测试 AI 是否存在：
越权回答
误导性输出
不合规建议
风险未提示情况
设计 “极端 / 对抗性输入”，验证 AI 的风险识别与自我保护能力；
协助输出 AI 风险测试报告与改进建议。
6. 测试流程与协作
与 AI 开发工程师、产品经理、业务团队协作，推动问题闭环；
参与制定 AI 测试规范、测试流程与质量指标；
支持 AI 系统上线前的测试评估与持续迭代。
三、任职要求（Qualifications）
1. 学历背景
计算机科学、软件工程、人工智能或相关专业本科及以上学历
2. 基础能力要求
具备软件测试或系统测试相关经验（1–3 年均可）；
理解 Web / API 基础测试方法，具备逻辑分析能力；
能清晰描述问题、复现路径与影响范围。
3. AI / 大模型相关理解（核心）
理解大语言模型的基本概念：
Prompt
上下文（Context）
多轮对话
输出不确定性
使用过或了解 GPT 等主流大模型应用；
能从“用户视角 + 系统视角”判断 AI 输出是否合理、可信。
四、优先条件（Bonus / Preferred）
有 AI 应用、智能 Agent、对话机器人测试或使用经验；
参与过 RAG / 知识库问答系统相关项目；
了解或使用过 LangChain、LangGraph、LlamaIndex 等 Agent 框架（不要求开发）；
对 AI 风险、合规、伦理、模型幻觉有敏感度；
有较强的文字表达能力，能清晰描述 AI 行为问题；
对 AI 质量、用户体验与长期可靠性有责任感。
五、我们期待你具备的特质（文化匹配）
以用户为中心：关注 AI 输出是否真正对用户负责；
尊重风险与边界：不追求“炫技”，更看重“可控与可靠”；
善于协作：愿意与开发、产品、业务反复打磨；
长期主义：愿意参与 AI 能力持续进化，而非一次性交付。
六、岗位价值说明（对候选人）
参与真实业务级 AI Agent 系统的构建与落地；
深入理解大模型在金融与复杂业务场景中的边界与风险；
成为连接 AI 技术 × 合规 × 用户体验的关键角色；
在快速发展的 AI 体系中，建立稀缺的 “AI 质量与风险控制能力”。
七、加分项
一定要会自动化测试，AI项目经验加分