职位描述
机器人语音算法语音人工智能
岗位职责:
1. 负责接待机器人的「人机交互系统」设计与开发,解决语音、视觉多模态融合问题
2. 优化麦克风阵列方案,解决「乱收音、回声消除、声源定位」等工程问题
3. 集成并优化语音识别(ASR)能力,提升嘈杂环境下的识别准确率
4. 实现「视觉 + 语音融合判断」(如:检测到人脸 + 语音唤醒才响应,避免误触发)
5. 搭建交互系统的「工程化框架」,确保稳定部署到量产机器人
6. 与导航/运动团队协作,完成交互与行动的逻辑联动(如:迎宾引导、跟随等场景)
2. 优化麦克风阵列方案,解决「乱收音、回声消除、声源定位」等工程问题
3. 集成并优化语音识别(ASR)能力,提升嘈杂环境下的识别准确率
4. 实现「视觉 + 语音融合判断」(如:检测到人脸 + 语音唤醒才响应,避免误触发)
5. 搭建交互系统的「工程化框架」,确保稳定部署到量产机器人
6. 与导航/运动团队协作,完成交互与行动的逻辑联动(如:迎宾引导、跟随等场景)
任职要求:
2年以上语音交互/多模态交互相关经验,有实际落地项目
- 熟悉麦克风阵列技术(波束成形、AEC 回声消除、噪声抑制)
- 精通主流ASR 方案(Kaldi/Vosk/Whisper/讯飞/百度等),有定制优化经验
- 能调用和集成开源视觉方案(人脸检测、唇动检测、简单手势识别),不要求从零研发
- 有多模态融合经验(规则引擎或轻量模型实现决策逻辑)
- 熟练使用 Python/C++,熟悉 ROS/ROS2框架
- 具备工程化能力:能复现开源项目、能调包、能优化部署、能在边缘设备(如 Jetson、树莓派)上跑通
- 熟悉麦克风阵列技术(波束成形、AEC 回声消除、噪声抑制)
- 精通主流ASR 方案(Kaldi/Vosk/Whisper/讯飞/百度等),有定制优化经验
- 能调用和集成开源视觉方案(人脸检测、唇动检测、简单手势识别),不要求从零研发
- 有多模态融合经验(规则引擎或轻量模型实现决策逻辑)
- 熟练使用 Python/C++,熟悉 ROS/ROS2框架
- 具备工程化能力:能复现开源项目、能调包、能优化部署、能在边缘设备(如 Jetson、树莓派)上跑通
工作地点
成都双流区天府海创园二期1号楼

入职公司信息
入职公司 北京碧水源科技股份有限公司
公司地址 北京昌平区史各庄街道生命科学园路23-2号碧水源大厦-总部市场中心
公司人数 1000-9999人
认证资质
营业执照信息 人力资源服务许可证

更新于 今天



