该职位已失效,看看其他机会吧

大模型推理加速框架研发工程师

2.3-4.5万
  • 成都武侯区
  • 3-5年
  • 本科
  • 全职
  • 招1人

职位描述

VLLMPyTorch
汇报对象:AI基础设施部技术总监
一、核心职责
推理框架开发——
1.参与基于FlashMLA的多头注意力解码器开发,优化变长序列处理效率
2.集成DeepGEMM FP8计算库,实现混合精度推理流水线搭建
性能调优实施——
1.分析Triton Inference Server日志,定位显存溢出及计算瓶颈问题
2.开发动态批处理系统
本地化部署支持——
1.适配昇腾等国产芯片
2.构建本地化模型仓库,通过3FS等方案实现模型加载速度提升
二、任职要求
1.基础条件
1)学历:计算机/电子工程本科及以上(优秀专科可放宽)
2)经验:3年开发经验,至少参与过1个完整项目落地
2.技术栈
1)熟练使用Python/C++开发工具链
2)掌握PyTorch模型导出与ONNX/TensorRT转换流程
3)熟悉CUDA基础编程,能调试简单GPU内核代码
3.优先条件
1)有vLLM/FasterTransformer框架二次开发经验
2)接触过MoE模型分布式推理架构
查看全部

工作地点

成都武侯区天府软件园D区创业场A42

职位发布者

徐菁菁/招聘经理

今日活跃
立即沟通
公司Logo飞享数据
【关于飞享】杭州飞享数据技术有限公司(以下简称“飞享”)成立于2014年,是一家聚焦于“互联网边缘计算”和“超本地内容交付”领域的创新型科技企业,是杭州市高新区“5050计划”重点企业、“雏鹰计划”重点企业、高新技术企业。核心团队来自于锐捷、华为、阿郎等国内外知名IT企业的高管。飞享在一年内完成了两轮融资,最近一次融资由迅雷网络(XNET)领投数千万元,成为该领域国内增速最快的企业之一。飞享的互联网边缘计算和超本地内容交付解决方案,能够大幅提升长尾运营商的用户互联网体验、并帮助运营商降低网络运营成本多至50%;与此同时,飞享也与芒果TV、爱奇艺等互联网内容方紧密合作,帮助互联网内容方提升用户体验、降低内容分发成本。成立两年多来,飞享已经成功服务于教育、运营商等200多家大型政企客户;在中国最顶尖的985/211高校,飞享的覆盖率超过60%,稳居第一。【关于即将加入的你】我们希望你能够真正理解并且做到——1、不计较的付出。来创业公司,都是奔着高速成长和财务回报去的。成长这件事,想提速就得加油,不计较付出。付出永远是和回报成正比的。2、对结果负责。我们都在同一条船上,大家背靠背作战靠的就只能是默契。对结果负责的人,会得到团队的信任。3、承担大粒度的工作。在这里你不是一颗螺丝钉,没有大公司的成熟规范和职责说明,你能做的是承担一块业务,把它搞定,并努力成为这个业务的负责人。我们为你提供——薪酬待遇:行业内有竞争力的薪资,每年2次加薪机会,每年1次期权分配机会,目前飞享半数员工持有期权,只有你敢想、敢干,能干,你就能和公司分享成长的红利。社会保险:五险一金,必备项目,没什么好说的;员工福利:节日福利、免费下午茶、年度体检、生日会、技术沙龙等;个人假期:带薪年休假、婚假、产假、陪产假等国家法定假期,每月带薪事病假8小时,春节放假10-15天;职业成长:员工入职每人配一名资深辅导员,各种丰富务实的培训;办公环境:DELL的24寸XPS大屏,机械键盘敲代码都是可以的;员工活动:团队outing、公司年会、每月小活动,每季大活动等等。飞享坐标:浙江省杭州市滨江区火炬大道581号,三维通信B座1007室简历通道:hr@fxdata.cn飞享期待你的加入!
公司主页