更新于 3月11日

python数据开发师

1.3-2.1万·14薪
  • 宁波鄞州区
  • 5-10年
  • 本科
  • 全职
  • 招1人

职位描述

有企业级的爬虫经验能解决三方平台的反爬机制Scrapy有分布式采集、队列/调度经验Python互联网
设计并实现分布式数据工程平台:任务调度、代理池、限速、登录/验证码处理、增量采集与去重;
稳定采集 AI 模型入口对话/回复(session、message、metadata) 与各社媒的检索词、评论、回复链等;优先集成官方审计/企业 API,Sidecar 作为补充;
构建 ETL → chunking → embedding → 向量索引 工程,支持 RAG 检索与证据溯源(snapshot/snippet);
建立生产监控/报警/运维(CI/CD、K8s、Prometheus/Grafana);
与 AI/产品/法务/运营协作,落地合规采集策略、红人素材授权与发布 gating
任职要求
≥5 年企业级数据采集工程经验,且曾参与并交付过生产级数据工程/数据平台;
熟练掌握 Playwright / Puppeteer / Scrapy 任一,能在复杂 JS 渲染与反爬环境下稳定采集;
有分布式采集、队列/调度、代理池、增量采集与去重实战经验;
熟悉向量化/embedding 流程并能与向量库(pgvector/Milvus/Chroma)对接;
熟悉 Docker/Kubernetes、CI/CD、监控与 SRE 实践;具备合规/数据隐私意识(robots、版权、PII 处理)。
加分项

工作地点

宁波鄞州区乐歌大厦

认证资质

营业执照信息

职位发布者

赵慧/人事经理

三日内活跃
立即沟通