职位描述
1. AI数据全流程建设
负责大模型、行业AI模型所需数据的采集、清洗、去重、过滤、标准化、结构化加工,构建高质量训练数据集、微调数据集、评测数据集。
2. 数据治理与质量管控
建立AI数据质量规范,解决脏数据、噪声数据、重复数据、低质数据问题;输出数据质检报告、数据版本管理、数据台账,保障模型训练、微调、推理的数据稳定性。
3. 自动化数据处理脚本开发
使用Python开发数据爬取、解析、批量处理、格式转换、文本清洗自动化工具,提升AI数据生产效率,减少人工成本。
4. 行业知识库与Prompt数据集构建
根据业务场景构建结构化问答数据、指令微调数据、知识库素材,支持大模型微调、RAG知识库落地、智能问答场景迭代优化。
5. 数据标注体系优化
配合标注团队制定标注规范、验收标准、抽检机制,协助提升标注准确率,处理复杂数据异常case复盘。
6. 配合算法迭代
对接算法工程师,根据模型效果反馈反向优化数据分布、补充稀缺场景数据、修正数据偏差,持续提升模型精度与实用性。
二、任职要求
1. 学历与经验
本科及以上学历,计算机、大数据、人工智能、统计学等相关专业;1-3年AI数据、大数据开发、NLP数据经验,优秀应届生可放宽。
2. 核心技术能力
熟练使用 Python,熟练掌握Pandas、Numpy、正则表达式、文本处理;
熟悉JSON、JSONL、CSV、Parquet等AI常用数据格式;
熟悉大模型训练/微调数据制作流程,懂SFT、对话数据、指令数据构建逻辑;
熟悉网络爬虫、网页解析、批量清洗、数据去重、脱敏处理;
了解向量数据、知识库入库、RAG数据预处理优先。
3. 业务能力
具备良好的数据敏感度,能识别劣质数据、数据偏见、场景缺失问题;逻辑清晰,能独立完成批量数据项目闭环。
4. 综合素质
耐心细致、抗压能力强,具备标准化工作习惯,能输出规范文档、台账、复盘总结。
5. 有行业大模型、政务/地理信息/不动产/行业知识库数据经验优先,懂基础SQL、数据仓库、大数据工具者优先,具备dify和langchain工作经验者优先。
工作地点

公司信息
公司介绍
天津市测绘院有限公司专业从事基础测绘、工程测绘和地理信息服务,始终坚持“以人为本、科技兴院”的发展理念,现有在职职工610人,其中国务院特殊津贴专家3人,天津市授衔专家1人,天津市突出贡献专家1人,“131”一层次人才8人,博士研究生9人,硕士研究生173人,高级职称人员198人,中级以上职称人员占全院职工的77.5%。持国家甲级测绘资质,并取得质量、环境、职业健康安全管理体系IS09001-2015国际标准认证。现拥有发明专利5项,软件著作权64项,省部级及以上优秀工程及成果奖430余项,承担并参与30项国家、行业及地方标准编制工作。建院以来,圆满完成了国家、天津市政府、天津市规划和自然资源局下达的城乡规划和自然资源管理的基础测绘和工程测绘项目万余项,其中包括数百个重点项目,如“引滦入津工程测量”、“天津市地铁一号线工程”、“天津市GPS连续运行参考站系统”等。积极引领行业发展,率先建立数据库、研发海量影像数据库系统,最大限度保障基础测绘成果的现势性和权威性,完成了“天津市空间地理信息框架工程”、“天津市基础地理信息综合平台”、“天津市双城中间绿色生态屏障综合监管平台”、“三维数字社区管理平台”、“天津市无障碍导向标识系统”等300多项测绘地理信息系统建设。先后多次获得“测绘保障先进集体”、“天津市五一劳动奖先进集体”、“天津市文明单位”、“天津市科技工作先进单位”等荣誉称号,获得多项省部级金奖、一等奖、科技进步奖。在新的历史时期,在市国资委、国兴资本公司及各级党委的领导下,天津市测绘院有限公司党委将继续坚持创新引领、弘扬工匠精神,充分发挥地理信息技术优势,辅助政府决策、参与城市管理、服务大众生活,为政府部门和广大用户提供高质量、高水平的测绘地理信息保障服务。

更新于 5月25日





