【岗位职责】 1、数据采集与整理:依据业务与模型需求,设计并实现网页爬虫、开放 API 调用等数据采集流程。处理多种非结构化数据(如网页文本、Markdown、PDF 等)的解析、抽取与结构化落库; 2、根据算法团队需求,构建和整理指令数据、问答数据、对话数据等,按约定格式生成训练语料。对原始数据进行脱敏、切分、标签整理等预处理,为标注与训练环节提供合规且高质量的数据输入; 3、配合后端与算法团队,搭建支撑 AI 应用(如智能助手、知识问答、智能客服等)的数据流程,包括向量化处理、索引构建、日志采集、用户反馈数据沉淀、特征更新等; 4、与产品、算法、后端等团队保持良好沟通,理解业务背景与需求,能够对数据方案提出合理建议。