岗位职责:
参与公司计算机视觉算法的设计、开发与优化,涵盖目标检测、图像分割、OCR识别、图像分类等核心视觉任务的算法研发与迭代;
负责基于YOLO系列(YOLOv5/v8/v11/YOLOX等)、RT-DETR等主流检测框架的模型选型、训练调优与部署落地;
参与视觉大模型(VLM)相关工作,包括视觉编码器(ViT、SigLIP、InternViT等)的微调与适配、视觉-语言对齐模块的优化(如MLP Projector、Cross-Attention Bridge等);
负责视觉数据Pipeline的构建与维护,包括数据采集、清洗、标注管理(Labelme/CVAT等)、数据增强策略设计与质量控制;
参与模型的工程化部署与推理优化,包括使用ONNX Runtime、TensorRT、OpenVINO等框架进行模型量化、剪枝及端侧/服务端推理加速;
基于OpenCV、Pillow等工具完成图像预处理、后处理及传统视觉算法(形态学操作、轮廓检测、模板匹配等)的开发与集成;
跟踪学术界与工业界在目标检测、视觉大模型、多模态理解等方向的前沿进展,并在团队内进行分享与落地探索;
配合产品与工程团队完成视觉算法方案的联调、测试与迭代。
任职资格:
计算机科学、人工智能、电子信息、自动化等相关专业本科及以上学历; 熟练掌握Python和C++,具备良好的编程习惯和代码能力;
掌握深度学习基础理论,熟悉CNN、Transformer等主干网络架构原理(卷积操作、注意力机制、FPN/PAN特征融合等核心概念);
熟练使用OpenCV进行图像处理与分析,具备扎实的传统视觉算法功底;
对YOLO系列检测框架有深入理解和实际项目经验,熟悉Anchor-Free/Anchor-Based检测范式、NMS后处理、多尺度检测等关键技术;
对视觉大模型(VLM)架构有了解或实践经验,理解视觉编码器(ViT、SigLIP等)的工作原理,了解视觉Token化、图像分辨率适配(Dynamic Resolution、AnyRes等)策略者优先;
熟悉PyTorch等主流深度学习框架,有MMDetection、Ultralytics、Detectron2等检测工具链使用经验者优先;
具备良好的文献阅读能力和自驱学习习惯,能够快速理解并复现前沿工作;
有天池竞赛、CVPR/ECCV/ICCV等顶会论文发表、开源项目贡献经验者优先。 加分项:
有模型部署实战经验(TensorRT、ONNX、TFLite等),熟悉从训练到上线的完整链路 有多模态大模型相关研究或项目经验(如Qwen-VL、InternVL、LLaVA等模型的训练或微调) 有实际视觉应用落地经验(如工业质检、自动驾驶感知、安防监控等场景)