岗位职责:
1.负责通过算法对大量图像、文本类数据的预处理,包括算法的编写、实施与应用调优。算法类型包括数据转换、验证、清洗、验证、脱敏、特征创建与识别算法,数据增强与数据合成算法,智能预标注算法。主要面向图像(含视频)、文本类数据;
2.负责算法类型技术及策略方案编写。面向预处理的算法在算法技术实现、模型训练优化、数据集验证标准上制定并输出相关文档;
3.配合算法工具的研发实现。为多模态数据处理工具提供技术方案、算法开发和测试实施。
任职要求:
1.硕士及以上学历,计算机、电子工程、数学等相关专业背景;
2.具备多模态数据处理经验,熟悉图像、文本、语音等数据的特征提取与融合方法;
3.精通机器学习与深度学习算法,熟悉CNN、RNN、Transformer等模型,掌握数据预处理、增强及质量评估相关技术;
4.熟练掌握Python、C++等编程语言及TensorFlow、PyTorch等深度学习框架,具备扎实的算法开发能力;
5.具有数据处理流水线(Pipeline)设计与优化经验,能开发提升标注效率与质量的算法工具;
6.参与制定数据集质量评估指标和方法,熟悉数据质量评估框架(如BLEU、F1、IoU等)或能设计定制化评估指标;
7.具备自然语言处理、计算机视觉或视频处理相关算法开发经验者优先,具有良好的团队协作与跨部门推动能力。