该职位已失效,看看其他机会吧

数据算法工程师

3-3.5万
  • 北京朝阳区
  • 3-5年
  • 本科
  • 全职
  • 招1人

职位描述

人工智能
核⼼职责
1. 对接业务部⻔与开发团队的数据需求(如⼤模型微调数据、Agent系统的⼯具调⽤数据、RAG系统的⽂档库建
设与更新需求等),提供数据治理⽀持(如⽂档格式标准化、⽂本清洗去重、向量数据元数据管理),并设计
⽂本分块算法、优化Embedding算法,实现向量检索算法,设计相似度计算算法等。并熟悉常⽤NLP算法
2. 向量数据需求对接(向量维度、检索性能、存储容量需求),提供向量数据API服务(向量插⼊、查询、更
新、删除接⼝),实现向量数据同步(⽂档更新时向量⾃动更新、增量同步),优化向量检索性能(索引优
化、查询优化、并发优化);
3. 设计知识图谱(实体建模、关系建模、属性定义、Schema设计等),构建Neo4j图数据库(节点创建、关系
创建、索引优化、约束设置),编写Cypher查询语句(MATCH查询、CREATE创建、MERGE合并、路径查
询),实现图谱数据导⼊(批量导⼊、增量更新、数据清洗、关系验证),优化图查询性能(索引优化、查询
重写、缓存策略、分⻚查询),实现图谱推理算法(路径查询、关系推理、⼦图匹配、图遍历);
4. ⽂档解析(PDF/Word/Excel解析、OCR⽂本识别、表格提取),实现⽂本预处理算法(分词、停⽤词过滤、
词⼲提取、标准化),设计信息抽取算法(实体识别、关系抽取、关键词提取),构建数据转换算法(格式转
换、编码转换、结构化处理),实现实体对⻬算法(字符串匹配、语义匹配、属性匹配、消歧算法),开发关
系抽取算法(规则抽取、模式匹配、统计抽取、深度学习抽取);
5. 元数据治理与语义建模: 为 ChatBI 构建⾼质量的语义映射库(Data Catalog);负责库表注释、指标⼝径、
维度枚举值的标准化清洗,确保⼤模型能“读懂”数据库字段的业务含义;
6. Text-to-SQL 准确率优化: 研发 Few-shot 示例选择算法,根据⽤户问题⾃动检索最相似的 SQL 样例
(NL2SQL Prompt Engineering);构建业务专有的 SQL 微调数据集
7. 具备扎实的 Java 后端开发基础,熟悉 Spring Boot ⽣态及常⽤中间件;
8. 能够熟练使⽤ Java 操作⼤数据与 AI 存储组件**(如 ES、Milvus、Neo4j),具备处理千万级以上数据量的⼯
程经验;
9. 熟悉数据中台架构,有能⼒将 Python 侧的算法逻辑转化为稳定运⾏的 Java ⽣产级代码。
任职要求
1. 学历与专业:本科及以上学历,计算机科学、软件⼯程、⼈⼯智能等相关专业;
2. 有 2-3 年⼯作经验者优先:需有结合 Prompt+Agent+RAG 的实际应⽤落地案例(如开发带 RAG / KG 的智能
Agent),能独⽴负责应⽤从需求拆解到上线的完整流程;
查看全部

工作地点

北京朝阳区启明国际大厦-A座11层

职位发布者

王先生/人力资源经理

刚刚活跃
立即沟通
公司Logo阳光智园科技有限公司
阳光智园科技有限公司https://www.ygzykj.com,2015年10月成立,实资注册资本5000万,位于望京启明国际大厦A座,是国内领先的教育领域监管平台解决方案供应商,业务面向全国,具有完善的研发团队及成熟的业务团队。业务群体面向全国教育领域政府部门。公司通过“互联网+校服”的创新模式,打造了国内最大的校服管理平台;通过“互联网+明厨亮灶”的模式,打造了最专业的校园食品安全监控管理平台;通过“互联网+校园安防”,打造校园智能安防监控平台······阳光智园通过互联网工具,结合物联网、人工智能、云计算、大数据等先进科技,让校园插上科技的翅膀。企业愿景:(1)致力于成为全国最优的教育行业监管平台(2)致力于成为全国最大的教育行业整体解决方案供应商(3)致力于成为教育行业具有影响力的科技企业之一现诚招有志之士,期待您的加入!
公司主页