更新于 今天

Data Infrastructure & Crawling Engineer

1.5-2万·13薪
  • 深圳 龙岗区
  • 3-5年
  • 本科
  • 全职

职位描述

SqlPyQtPostgreSQL综合商贸产业互联网平台3C数码批发/零售/贸易
Primary focus: web crawling
system, intelligence data warehouse, data pipelines. This is the engineer who
builds the moat.
Skillset Requirements
Essential Skills
1.Go--Production Go: goroutines, channels, context handling, error patterns. Strong preference — Go is the right language for crawlers and pipeline services.
2.Python Python 3.10+ for data processing, glue code, ML adjacent work.
3.Web crawling--Built production crawlers handling 100K+ pages: politeness, robots.txt, retries, deduplication
4.Headless browsers--Playwright, Puppeteer, Chrome dp, or Selenium for JavaScript-rendered sites
5.HTML parsing & content extraction--goquery, BeautifulSoup, trafilatura, readability — extracting clean text from messy HTML.
6.Distributed queues--NATS, RabbitMQ, Redis Streams, or Kafka — job orchestration at scale
7.PostgreSQL Schema design, partitioning, indexing for large datasets.
8.Docker & Linux--Containerized services, systemd, Linux performance debugging.
9.Git--Branching, PRs, code review
10.English--Reading technical docs, writing code comments and PR descriptions in English
Other skills
1.Rust--Rust for performance-critical pipeline components (Tokio, async runtimes).
2.Vector databases Milvus, Qdrant, Weaviate — index design and bulk loading.
3.Stream processing--Kafka Streams, Flink, NATS JetStream, or similar real-time pipelines.
4.Change data capture (CDC)-- Debezium or similar; incremental data ingestion patterns.
5.Embeddings & chunking--Sentence-transformers, document chunking strategies for RAG.
6.Observability--Prometheus, Grafana, OpenTelemetry, structured logging.
7.Proxy & anti-bot handling--Proxy rotation, residential proxies, CAPTCHA strategies.
8.LangChain / LangGraph--Multi-step agent workflows for retrieval routing.
9.Bahasa Indonesia / SEA language familiarity.Helps with crawler targeting; not required

工作地点

工作地点
深圳龙岗区坂田街道
位置图标
完善简历

公司信息

深圳麦客骐科技有限公司

未融资 · 20人以下 · 3C数码批发/零售/贸易、互联网新零售 已审核 已审核

2 个在招职位

工商信息

企业名称 深圳麦客骐科技有限公司
企业类型 有限责任公司
法人代表 王莹
经营状态 存续
成立时间 2021-11-29
注册资本 100万元
查看全部信息

认证资质

营业执照信息

相似职位

查看更多

python后端开发/加班少/现场面试当天出结果

1-1.2万 软通动力信息技术(集团)股份有限公司
本科 3-5年 Python Django Flask MySQL 后端开发 半导体 计算机软件

python开发工程师

8000-10000元 云值(深圳)科技有限公司
大专 1-3年 Python Django FASTAPI PostgreSQL 自动化脚本

python算法工程师

1.4-1.6万 深圳市紫川软件有限公司
本科 1-3年 hive 机器学习 计算机软件

python工程师

1-1.8万 软通动力信息技术(集团)股份有限公司
本科 1-3年 Python C++ NLP算法 云计算 通信/网络设备 半导体/芯片

Python开发工程师

1.3-1.8万 深圳市紫川软件有限公司
本科 3-5年 Django Java 人工智能

mes系统开发工程师

8000-15000元 深圳市新华鹏激光设备有限公司
本科 1-3年 Django Flask MySQL Python Java MES系统
最新招聘
热门城市
热门职位
热门公司