职位描述
语音识别多模态算法深度学习PythonC++自动驾驶人工智能工业自动化/机器人
岗位职责
负责人形机器人 / 车载端VLM、VLA 视觉语言动作大模型、2D/3D 感知模型端侧落地,基于 NVIDIA Jetson Orin 系列硬件完成模型移植、权重优化、工程部署;
主导模型全链路量化:FP16/BF16→W8A8/W4A16/AWQ 量化落地,使用 TensorRT、TRT-LLM 完成引擎编译,调优maxInputLen、maxKVCacheCapacity、KV Cache复用等关键参数,解决量化掉精度、显存溢出、推理时延超标问题;
结合 ROS2/Humble 完成多模态模型推理服务封装,打通感知输入→VLM 推理→机器人控制指令输出全链路,对接 Isaac Sim 仿真数据闭环;
针对 Orin GPU+NPU 异构算力做算子裁剪、算子融合、显存池优化,优化 Prefill/Decode 推理速度,落地 RTF、FPS、首包时延等性能指标;
跟进前沿 VLA/Track-VLA 类模型部署迭代,对接算法团队,梳理部署瓶颈,输出标准化部署基线与量化规范。
任职要求
本科及以上,计算机、自动化、机器人、电子等相关专业,机器人 / 自动驾驶落地经验优先;
有 VLM/VLA/BEV/ 图像检测分割等感知算法落地经验,熟悉大模型自回归推理原理、KV Cache 机制;
精通 TensorRT、TRT-LLM,熟练各类 INT8/W8A8 量化方案落地,有 Jetson Orin 平台量产部署实战;
机器人/自动驾驶/芯片符合行业经验优先
熟练 C++/Python,熟悉 ROS/ROS2 开发,能独立完成推理节点封装、多机 / 板间通信调试;
熟悉 CUDA 编程优先,懂 FlashAttention、SmoothQuant、模型剪枝等优化手段优先。
负责人形机器人 / 车载端VLM、VLA 视觉语言动作大模型、2D/3D 感知模型端侧落地,基于 NVIDIA Jetson Orin 系列硬件完成模型移植、权重优化、工程部署;
主导模型全链路量化:FP16/BF16→W8A8/W4A16/AWQ 量化落地,使用 TensorRT、TRT-LLM 完成引擎编译,调优maxInputLen、maxKVCacheCapacity、KV Cache复用等关键参数,解决量化掉精度、显存溢出、推理时延超标问题;
结合 ROS2/Humble 完成多模态模型推理服务封装,打通感知输入→VLM 推理→机器人控制指令输出全链路,对接 Isaac Sim 仿真数据闭环;
针对 Orin GPU+NPU 异构算力做算子裁剪、算子融合、显存池优化,优化 Prefill/Decode 推理速度,落地 RTF、FPS、首包时延等性能指标;
跟进前沿 VLA/Track-VLA 类模型部署迭代,对接算法团队,梳理部署瓶颈,输出标准化部署基线与量化规范。
任职要求
本科及以上,计算机、自动化、机器人、电子等相关专业,机器人 / 自动驾驶落地经验优先;
有 VLM/VLA/BEV/ 图像检测分割等感知算法落地经验,熟悉大模型自回归推理原理、KV Cache 机制;
精通 TensorRT、TRT-LLM,熟练各类 INT8/W8A8 量化方案落地,有 Jetson Orin 平台量产部署实战;
机器人/自动驾驶/芯片符合行业经验优先
熟练 C++/Python,熟悉 ROS/ROS2 开发,能独立完成推理节点封装、多机 / 板间通信调试;
熟悉 CUDA 编程优先,懂 FlashAttention、SmoothQuant、模型剪枝等优化手段优先。
工作地点
上海市浦东新区祖冲之路2305号

认证资质
营业执照信息

更新时间 6月5日





