职位描述
技术氛围: 扁平化管理,崇尚用自动化脚本和技术手段解决重复问题,主打高效与纯粹。
业务方向: 负责企业级数据大脑的基础设施建设,从 0 到 1 参与多源分布式数据采集与服务化平台的架构设计。
🎯 岗位职责
多源多模态数据采集: 负责设计与维护针对境内外多渠道的数据采集系统(包括但不限于主流招聘平台、国内外科技论坛、财经/股票数据、等),解决反爬、验证码、动态加载等技术瓶颈。
数据清洗与结构化: 对采集到的非结构化文本、资讯及行业数据进行高质高效的清洗、去重与结构化处理,为后续数据分析及 AI 智能体(Agent)提供可靠的数据源。
Web 平台开发: 使用 FastAPI 框架开发高并发、低延迟的数据 API 接口与后台管理系统,实现采集任务的动态调度、日志监控与服务化输出。
云原生部署与运维: 负责数据系统在 Linux 环境下的基础部署,编写高效的 Dockerfile / Docker Compose,配合团队完成服务容器化、跨节点网络配置及基础数据库维护。
🎯 任职要求
1. 核心技术栈(硬性条件)
精通 Python 编程: 本科及以上,具备 3 年以上 Python 实际开发经验,对异步编程(asyncio)有深入理解。
熟练掌握 Web 框架: 熟练使用 FastAPI(或熟练使用 Flask/Django 并能快速迁移至 FastAPI),具备优秀的 RESTful API 设计能力及性能调优经验。
扎实的 Docker / Linux 功底: 熟练编写 Dockerfile,掌握 Docker 容器化部署 及基础网络配置;熟悉 Linux 常用命令,能独立完成服务日志排查、性能监控及基本的 Shell 脚本编写。
数据存储基础: 熟练掌握至少一种关系型数据库(如 PostgreSQL/MySQL)和非关系型数据库(如 Redis/MongoDB),具备基础的 SQL 编写、索引优化与命令操作能力。
2. 数据采集经验
多场景采集能力: 熟悉多线程、异步网络请求(如 httpx, aiohttp)及动态网页解析(如 Playwright, Selenium)。
策略防封: 熟悉 IP 代理池、Cookie 持久化维护、Header 混淆等反爬对抗策略,能够针对不同网站特性设计合理的非实时/定时异步采集策略。
涉猎广泛: 具有招聘平台、股票财经、国外 IT 社区(如 Stack Overflow, Reddit 等)其中一类或多类网站的数据采集与结构化清洗经验者优先。
3. 综合素质
架构思维: 具有良好的代码规范(遵循 PEP8 规范),注重面向对象设计与代码的复用性。
自驱力: 能够独立分析目标网站的请求逻辑,具备较强的排查、解决问题的能力。
📌加分项:
1.熟悉 Docker Swarm 分布式集群部署或 Portainer 容器管理工具。
2.熟悉常见的任务调度框架(如 Celery, APScheduler)。
3.熟悉大语言模型(LLM)数据预处理流,或有 AI Agent 基础设施建设经验者优先
工作地点

公司信息
公司介绍
东微电子材料有限公司2018年落户河南郑州航空港实验区。①东微是一家聚焦于半导体设备材料零部件的国家级专精特新小巨人企业,主要产品包括金属靶材、半导体设备如光刻、刻蚀、涂胶显影、量测、炉管等以及数千余种设备零部件。在北京、上海、杭州、无锡、厦门、新干、内江、阜阳、新加坡等地设有研发生产基地,服务客户有台积电、希捷、西部数据、格罗方德、中芯国际、北方华创、士兰微、长江存储等国内外知名芯片企业;②公司2023年就引入了华为海思核心背景团队,开始设计GPU、流片和大模型训练,所设计GPU芯片采用东微自己的设备生产,GPU良率超过80%,远高于国内同行水平。该GPU于2025年通过了国家电网大模型、中国气象局大模型和政府大模型;③公司已经建立了位于新疆石河子的第一个算力中心,采用东微自己的GPU,目前算力中心满负荷运行,处于盈利状态;④接下来东微将建立500亿规模的算力中心,对应会定向购买数几千亿的东微半导体设备(中芯国际造600亿芯片需购买4000亿设备),北方华创和中微公司目前每年只有100-200亿设备收入,有2-3千亿市值。如果东微卖1000亿设备,将成为国内半导体设备市值第一的公司;⑤另公司自主研发了采用自己GPU的机器狗,董事长还布局了油气、燃气轮机、AI数字人直播等众多新兴产业,未来发展潜力巨大。

更新于 5月21日



