该职位已失效,看看其他机会吧

AI 预训练数据源扩展工程师-爬虫数据采集

2-4万
  • 北京海淀区
  • 3-5年
  • 本科
  • 全职
  • 招2人

雇员点评标签

  • 工作环境好
  • 同事很nice
  • 人际关系好
  • 管理人性化
  • 氛围活跃
  • 交通便利
  • 团队执行强

职位描述

爬虫开发数据采集人工智能云计算/大数据
工作内容:
1.负责 AI预训练相关数据源的拓展与维护
2.按需求探索、筛选并获取公开数据源,包括但不限于 HuggingFace / GitHub / Kaggle / 网盘数据 等
3.使用 Python / Shell / 命令行工具 完成数据下载、校验与整理
4.对数据进行基础结构化整理、落盘存储,并维护必要的元信息记录(来源、规模、格式等)
5.按项目要求交付可复用的数据资产与说明文档
任职要求:
1.熟悉 Linux / Unix环境,能熟练使用命令行工具
2.能使用 Python或 Shell编写脚本完成数据下载、处理与简单自动化
3.具备大规模数据下载、整理或迁移经验(TB级更佳)
4.工作细致,执行力强,能严格按照交付规范完成任务
加分项:
1.有AI / 大模型 / 预训练数据相关项目经验
2.熟悉常见公开数据集生态(如 NLP / Code / Math / Web 数据等)
3.了解或使用过对象存储(S3 / OSS / COS 等)
4.有数据清洗、去重、格式转换等基础经验
查看全部

工作地点

北京海淀区启迪科技大厦-C座

职位发布者

谢女士/人事经理

昨日活跃
立即沟通
公司Logo博彦科技承德有限公司
博彦科技(深交所上市公司,股票代码002649)是一家面向全球的IT咨询、产品、解决方案与服务提供商。公司成立于1995年,总部位于中国北京,并在中国、美国、西班牙、日本、印度、新加坡和马来西亚等7个国家设有40余家分支机构、研发基地或交付中心。博彦科技依托自身强大的研发与创新能力,广泛采用基于物联网、大数据、人工智能和移动互联等新兴技术,为高科技、金融、互联网、地产、交通、汽车、零售、能源、制造、航空、电信、媒体、旅游等行业客户提供丰富的解决方案及产品。博彦科技遵循严格的质量和安全标准,实施严密的安全措施,拥有成熟可靠的管理和开发流程,并获得CMMI 3、ISO 20000、ISO 9001、ISO 27001、ISO 14001、OHSAS 18001等一系列资质认证。公司凭借多年的行业积累、深厚的行业专长和成熟的行业实践、国际化的精英团队和完善的人才管理、完备的全球化交付与服务网络、以及无处不在的创新精神与实践,助力全球客户尽享科技革新所带来的卓越运营,为客户持续创造关键价值。
公司主页