更新于 3月18日

AI 测试工程师

1.1-1.6万
  • 上海闵行区
  • 5-10年
  • 本科
  • 全职
  • 招1人

职位描述

自动化测试AI测试人工智能
一、岗位定位(Role Purpose)
AI 测试工程师负责对 基于大语言模型(LLM)的 AI Agent 系统进行系统性测试与质量保障,覆盖 Prompt、Agent 行为、工具调用、知识检索(RAG)、上下文管理、合规与风险边界 等关键环节,确保 AI 系统在真实业务场景中 稳定、可控、可解释、不越权、不误导。
该岗位是 AI 研发与业务落地之间的“安全与质量闸门”,直接支撑诺亚 AI 作为 “第二大脑” 的可靠运行。
二、岗位职责(Key Responsibilities)
1. AI / Agent 功能测试
参与 AI Agent(基于 GPT 等大模型) 的功能测试与验收;
针对 Prompt、上下文管理、任务执行链路,设计测试用例并验证输出一致性与可控性;
验证 Agent 在多轮对话、复杂任务场景下的行为稳定性与逻辑正确性。
2. Prompt 与模型行为测试
测试 Prompt 在不同输入条件下的响应质量、边界行为与退化风险;
识别模型幻觉(Hallucination)、不完整回答、逻辑跳跃等问题;
协助沉淀 Prompt 测试样例库与评估标准。
3. RAG / 知识检索测试
测试基于 RAG 的知识检索准确性、召回率与引用一致性;
验证 AI 是否 严格基于内部知识库内容回答,避免编造;
检查知识更新、缺失、冲突时的模型行为是否符合预期。
4. 工具调用与流程测试
测试 Agent 对内部工具/API 的调用逻辑、参数正确性与异常处理;
验证多步骤任务执行流程(如“理解 → 规划 → 执行 → 校验”)的完整性;
发现流程中可能导致越权、误用或失败的风险点。
5. 合规与风险测试(重点)
基于 AICOS / N-ARL 原则,测试 AI 是否存在:
越权回答
误导性输出
不合规建议
风险未提示情况
设计 “极端 / 对抗性输入”,验证 AI 的风险识别与自我保护能力;
协助输出 AI 风险测试报告与改进建议。
6. 测试流程与协作
与 AI 开发工程师、产品经理、业务团队协作,推动问题闭环;
参与制定 AI 测试规范、测试流程与质量指标;
支持 AI 系统上线前的测试评估与持续迭代。
三、任职要求(Qualifications)
1. 学历背景
计算机科学、软件工程、人工智能或相关专业本科及以上学历
2. 基础能力要求
具备 软件测试或系统测试相关经验(1–3 年均可);
理解 Web / API 基础测试方法,具备逻辑分析能力;
能清晰描述问题、复现路径与影响范围。
3. AI / 大模型相关理解(核心)
理解大语言模型的基本概念:
Prompt
上下文(Context)
多轮对话
输出不确定性
使用过或了解 GPT 等主流大模型应用;
能从“用户视角 + 系统视角”判断 AI 输出是否合理、可信。
四、优先条件(Bonus / Preferred)
有 AI 应用、智能 Agent、对话机器人 测试或使用经验;
参与过 RAG / 知识库问答系统相关项目;
了解或使用过 LangChain、LangGraph、LlamaIndex 等 Agent 框架(不要求开发);
对 AI 风险、合规、伦理、模型幻觉 有敏感度;
有较强的文字表达能力,能清晰描述 AI 行为问题;
对 AI 质量、用户体验与长期可靠性有责任感。
五、我们期待你具备的特质(文化匹配)
以用户为中心:关注 AI 输出是否真正对用户负责;
尊重风险与边界:不追求“炫技”,更看重“可控与可靠”;
善于协作:愿意与开发、产品、业务反复打磨;
长期主义:愿意参与 AI 能力持续进化,而非一次性交付。
六、岗位价值说明(对候选人)
参与 真实业务级 AI Agent 系统 的构建与落地;
深入理解 大模型在金融与复杂业务场景中的边界与风险;
成为连接 AI 技术 × 合规 × 用户体验 的关键角色;
在快速发展的 AI 体系中,建立稀缺的 “AI 质量与风险控制能力”。
七、加分项
一定要会自动化测试,AI项目经验加分

工作地点

上海闵行区诺亚财富中心

认证资质

营业执照信息

职位发布者

李红蕾/人事经理

今日活跃
立即沟通
公司Logo郑州海奥软件科技有限公司
郑州海奥软件集开发、销售和服务于一体的IT软件公司,现有员工100余人,公司技术性人才比例超过75%,是一家典型的以高科技人才组成的科技创新、产品创新的高科技软件公司。
公司主页