【岗位职责】
1. 承担内部AI系统的测试,保障AI系统的质量、性能、安全性等符合期望;
2、AI系统与模型评估:
1)功能与逻辑验证:设计测试用例,验证AI系统(如大模型、问数等)生成内容的准确性、逻辑性、上下文一致性及指令遵循能力。
2)核心指标评测:制定并执行评测方案,对模型的精准率、召回率、F1值等核心指标进行评估,输出可解释性与鲁棒性测试报告。
3)数据集构建:负责测试数据的采集、清洗、分类、标注与校对,构建高质量的测试数据集和自动化评测能力。
3. 质量与风险防控:
1)AI幻觉与偏见检测:识别并记录AI系统生成的虚构信息(幻觉)、事实性错误或偏见性内容,并分析其模式,协助优化模型。
2)安全与合规性测试:通过红队测试(Red Teaming)等方法,模拟恶意输入,检测系统漏洞、数据泄露风险及对抗样本攻击的脆弱性,确保内容符合法律法规和伦理规范。
3)稳定性与压力测试:模拟高并发、长周期运行等极端场景,监测系统的稳定性、响应速度及在数据分布变化时的适应能力。
4. 测试策略与自动化:
1)自动化测试开发:使用Python等编程语言开发和维护自动化测试脚本与框架,覆盖接口、UI、性能等,提升测试效率与覆盖率。
2)测试体系搭建:参与需求评审,推动测试左移,制定全链路测试策略与质量保障标准,建立从数据、模型到应用的完整质量体系。
3)工具链建设:搭建并优化AI测试工具链,探索利用AI技术(如AIOps)来测试AI系统的新方法。
5. 问题定位:分析模型预测错误、性能瓶颈,协助开发团队进行根因分析。
【岗位要求】
1. 技术技能:
1)编程能力:精通至少一种编程语言,如 Python、Java、C++,具备扎实的代码和脚本开发能力。
2)AI知识基础:熟悉主流AI框架(如 TensorFlow、PyTorch),掌握准确率、F1值、AUC、BLEU、ROUGE等指标,了解机器学习、深度学习的基本原理和算法(如分类、回归、聚类)。
3)测试工具与方法:熟悉软件测试流程、方法论及工具(如Selenium、JMeter),掌握数据库操作(如MySQL、MongoDB)和数据处理工具(如Pandas)。
4)专业领域知识:具备自然语言处理(NLP)、计算机视觉(CV)、语音识别等一个或多个领域的专业知识。
2. 综合能力:具备优秀的逻辑思维、问题分析和独立解决能力。拥有良好的沟通协作能力,能与产品、研发、算法等多部门高效协同。对AI技术有热情,学习能力强,能持续关注行业动态并掌握新技术。
3. 有 AIGC、RAG(检索增强生成)或 Agent 测试经验,熟悉 OpenCompass、PromptBench 等大模型评测工具,具备 CI/CD(持续集成/部署)经验者优先。
4. 计算机、软件工程、人工智能、电子信息等相关专业,2年以上相关工作经验,有AI算法、模型测试经验者优先。