更新于 今天

AI DevOps 工程师

1.5-3万
  • 青岛 城阳区
  • 经验不限
  • 本科
  • 全职
  • 招1人

职位描述

PythonShellJenkinsGrafanaPrometheuslinuxDocker
岗位定位
负责企业级 AI / Agent 平台的服务器管理、部署运维、稳定性保障、可观测体系、安全审计和成本治理。你需要保障 Agent 服务、知识库服务、模型服务、评估服务、MCP 工具服务和相关业务工具服务在生产环境中稳定运行,并能在出问题时快速定位、告警、降级、回滚和恢复。
这个岗位不是传统服务器值守,而是面向 AI 基础设施的 DevOps 工程师,需要同时理解基础设施、服务治理和 AI 系统的运行特点。
工作职责
1.基础环境管理:负责服务器、网络、域名、证书、密钥、环境变量、配置中心和运行环境的规划、管理与日常运维。
2.部署发布体系建设:建设并维护 Docker、Kubernetes、内部服务部署、CI / CD、镜像管理、配置管理、灰度发布、回滚、备份和恢复流程。
3.AI 服务稳定性保障:保障 Agent 服务、知识库服务、模型调用服务、评估服务、MCP 工具服务、业务工具服务和相关中间件稳定运行。
4.可观测体系建设:建设日志、指标、链路追踪、审计记录、看板、告警规则、值班机制、故障复盘和 SLO 管理体系。
5.AI 运行指标监控:监控模型调用延迟、模型服务错误率、token 使用量、成本、配额、工具调用成功率、MCP 服务健康状态、知识库查询延迟、队列积压、并发量和资源使用率。
6.基础组件运维:负责关系型数据库、缓存、搜索引擎、向量库、消息队列、对象存储和列式存储等基础组件的部署与运维。
7.安全与治理机制建设:建立访问控制、权限审计、敏感信息保护、API Key / Token 管理、密钥轮换、高风险操作审计和日志归档机制。
8.生产保障与应急响应:支持服务上线、压测、容量规划、性能优化、成本治理、故障演练、应急预案和生产问题排查。
9.研发协作与运维标准化:与 Agent 开发工程师协作,推动服务可部署、可监控、可扩缩容、可回滚、可持续运维。
任职要求
1.Linux 系统运维:熟练掌握系统安装、服务管理、Shell 脚本编写及日志分析,能够独立完成环境问题的定位与排查,不依赖图形界面操作。
2.工具代码开发能力:具备 Bash / Python 脚本或工具开发能力,能独立编写自动化脚本和运维工具,提升部署、巡检、排障和配置管理效率。
3.CI / CD 丰富经验:熟悉 Docker 容器化打包、镜像管理、Jenkins / GitLab CI 等流水线配置与维护,有较丰富的 CI / CD 实践经验,能够独立完成服务部署、升级和版本回滚。
4.监控与告警:了解 Prometheus / Grafana / ELK / OpenTelemetry / Langfuse 等常见监控与可观测工具,能搭建基础监控告警体系,具备日志分析、链路追踪和故障定位能力。
5.网络与远程运维:能够处理 IP、DNS、防火墙、证书、反向代理、访问控制等常见网络问题,具备独立远程运维能力。
6.基础组件运维:理解 Web 服务、API 网关、数据库、缓存、消息队列、对象存储、权限认证、密钥管理等基础组件,能参与部署、巡检、备份、恢复和问题排查。
7.本地 LLM 与 AI 系统基础:了解本地大模型运行原理和常见部署方式,能协助判断硬件配置、推理服务、模型调用延迟、错误率、token 使用量、成本和配额等问题。
8.AI 工具使用:能够使用 Claude Code / Codex 辅助完成日常运维、脚本开发、故障排查、配置整理和文档编写,并将 AI 工具融入日常工作流程。
9.安全与审计意识:能处理 API Key、Token、Secret、敏感数据、权限边界、操作日志和访问审计,具备基本安全基线和风险控制意识。

素质要求
1.具备持续学习能力,能够快速适应新技术与新场景。
2.具备较强抗压能力,适应快节奏、多线程的工作环境。
3.具备良好的团队协作意识,主动暴露问题,及时沟通同步。

加分项
•有大模型部署经验,包括私有化模型服务、推理服务、GPU 资源管理、模型网关、模型 API 服务或 OpenAI-compatible 服务部署。
•维护过 LLM 应用、Agent 平台、RAG 服务、MCP Server、模型 API 网关、企业内部 AI 工具或 AI Coding 平台。
•熟悉主流大模型推理框架、GPU 运行环境或模型推理性能调优。
•熟悉 Kafka / RabbitMQ / RocketMQ、Redis、PostgreSQL / MySQL、Elastic Search、MinIO / OSS、Doris / ClickHouse、Spark / Flink。
•有自建机房、腾讯云、阿里云、AWS 等环境的部署和运维经验。
•有内外网隔离、私有化部署、企业 OA、钉钉开放平台、制造业 IT 环境或混合云环境经验。
•做过成本监控、配额系统、预算告警、容量规划、SLO 设计、故障演练或发布变更管理。

工作地点

工作地点
城阳区青岛华晟智能装备股份有限公司
位置图标
完善简历

公司信息

华晟(青岛)智能装备科技有限公司

B轮 · 500-999人 · 工业自动化/机器人、工业自动化/机器人 已审核 已审核

58 个在招职位

公司介绍

华晟智能是国家高新技术企业、山东省“专精特新”企业,山东省“瞪羚企业”,前身为上市公司软控股份(002073.SZ)的智能装备事业部,2009年起开始涉足智能工厂及立体化仓库业务,迄今已实现了14年的行业积累,技术成熟、领先,实战经验丰富。公司自研、自产核心设备(堆垛机、AGV、环穿RGV、机械臂等输送系统硬件)以及核心软件系统(WMS、WCS、TMS等),专注于为不同行业企业提供智能化物流系统、智能化立体仓库、智能工厂等整体解决方案,是行业内为数不多的有实际大型智能工厂规划、软硬件实施、服务实施的一揽子供应商,是结合智能制造和工业互联网纵横维度的工业企业数字化服务提供方。 目前华晟智能已在全球范围内为包括但不限于:橡胶、新能源(锂电)、化工、医药、冷链等在内十五个行业的超过400家企业提供了专业化的产品及服务,得到了客户的一致好评。

工商信息

企业名称 华晟(青岛)智能装备科技有限公司
企业类型 有限责任公司(非自然人投资或控股的法人独资)
法人代表 王俊石
经营状态 存续
成立时间 2017-09-06
注册资本 1亿元
查看全部信息

认证资质

营业执照信息

相似职位

查看更多

软件开发运维工程师(水利信息化 / 智慧水利方向)

8000-12000元 山东维熙建设工程有限公司
本科 1-3年 系统运维 服务器运维 IDC/机房运维 水利信息化 / 智慧水利

系统开发运维工程师

5000-9000元·13薪 软控股份
本科 餐补 通讯补助 节日福利 住房补贴 周末双休

AI DevOps 工程师

1.6-1.9万 优创(青岛)数据技术有限公司
本科 云运维 Java C# Python 计算机软件

现货交易部交易技术开发运维岗

1.2-2.4万 山东国际大宗商品交易市场有限公司
本科 3-5年 交易平台 系统运维 数据库运维 现货交易 大宗商品交易

AI 平台运维开发工程师(DevOps)

1.6-1.9万 优创(青岛)数据技术有限公司
本科 云运维 Java C# Python 计算机软件

SRM系统工程师

1-1.5万 阜丰投资集团
本科 5-10年 系统运维 SRM系统 计算机软件

运维开发工程师

1.3-1.5万 深圳市法本信息技术股份有限公司
大专 3-5年 系统运维 Python Java GoLang 银行 证券/期货 金融科技/数字金融

devops开发工程师

9000-12000元 东华软件股份公司
本科 3-5年 DEVOPS 银行

开发运维副主管

7000-12000元 山东渤海实业集团有限公司
本科 计算机软件 系统的培训