职位描述
Python驻场软件/IT服务
岗位职责
1. 系统与AI平台运维保障:负责业务系统、数据服务及AI大模型相关平台的现场部署、日常维护、故障兜底与7*24小时运行保障,跟进大模型推理服务、微调服务运行状态,保障AI业务稳定对外提供服务;
2. Linux服务器运维管理:熟练完成Linux服务器环境初始化搭建、应用服务部署、参数配置、性能监控、日常巡检,处理服务器内核、磁盘、内存、网络等底层硬件及系统层面异常问题;
3. 容器化服务运维:负责Docker、Docker Compose容器化服务的编排部署、版本迭代更新、线上故障排查、容器资源配额管控、镜像管理,完成容器服务迁移与扩容运维工作;
4. 系统版本发布与日常管控:负责业务系统现场版本发布、灰度更新、服务启停、账号权限划分配置、全链路运行状态定时巡检,输出标准化巡检报告,提前预判系统运行风险;
5. 基础设施搭建与灾备维护:参与项目底层基础设施建设,完成局域网网络环境配置、跨服务互联互通调试、全量数据定时备份、系统宕机快速恢复、灾备演练等工作,筑牢底层运行底座;
6. 大模型与GPU专项运维:协助完成GPU算力环境调试、大模型基础服务部署、推理接口运维、显存占用监控、大模型运行日志分析,解决大模型服务启动失败、推理超时、算力不足等常见现场问题,提供AI平台底层环境支撑;
7. 中间件与数据库运维排障:负责日志系统、缓存服务、PostgreSQL数据库、Nginx、Kafka等中间件的日常运维、性能调优、异常告警处理,快速定位并解决服务连接失败、数据堆积、缓存击穿等线上问题;
8. Python运维自动化开发:基于Python开发轻量化运维脚本、自动化巡检工具、日志清洗分析脚本、服务状态监控脚本、批量部署脚本,替代重复性人工运维工作,提升现场运维效率;编写简易接口脚本,完成大模型服务接口调用、状态自动化检测;
9. 现场技术支撑与项目交付:常驻项目现场提供一线技术支撑,对接项目组、甲方处理现场突发技术问题;配合项目全流程实施、验收及交付工作,按要求完成阶段性封闭部署、压力测试、上线值守等专项任务。
任职要求
1. 大专及以上学历,计算机、网络工程、软件工程、信息技术等相关专业优先,有1-3年现场运维/运维开发相关工作经验;
2. 精通Linux系统常用命令、系统权限管理、进程管理、磁盘与网络排查等服务器全流程日常运维操作,可独立处理服务器底层故障;
3. 熟练掌握Docker、Docker Compose容器编排、镜像制作、容器启停、网络与存储配置、容器故障排查等容器全生命周期管理能力;
4. 必备技能:熟练掌握Python编程语言,能够独立使用Python编写自动化运维脚本、日志分析脚本、批量运维工具、接口调用脚本,熟悉os、subprocess、requests、logging等常用运维相关库;
5. 必备认知:了解大模型基础理论知识,熟悉大模型部署基本流程、GPU算力适配要求、大模型推理服务运行逻辑,了解大模型常见运维痛点及基础优化方案;
工作说明
1. 岗位定位:本岗位不属于纯研发开发岗,也区别于传统纯现场运维岗,属于现场运维+轻量化运营开发复合型岗位,核心工作为现场系统部署、AI平台运维、项目实施交付,辅以Python脚本自动化开发,简化人工运维工作量;
2. 核心能力要求:重中之重为Linux实操能力、现场应急排障能力,同时必须具备Python代码编写能力与大模型基础认知,二者为岗位入职必备条件;
3. 工作模式说明:根据项目上线、验收、重大升级节点,会安排封闭式集中工作,单次封闭周期一般为2-5天,封闭期间全程驻场值守,保障系统零故障上线;
4. 工作节奏说明:项目实施期现场工作节奏紧凑,需高频完成环境配置、版本发布、故障处理、巡检值守、自动化脚本迭代等工作;项目平稳运行期以日常监控、例行维护、工具优化为主;
5. 工作产出要求:除日常运维保障外,需持续通过Python脚本优化现有运维流程,降低人工操作失误率;同步积累大模型运维故障案例,完善现场AI平台运维标准流程。
1. 系统与AI平台运维保障:负责业务系统、数据服务及AI大模型相关平台的现场部署、日常维护、故障兜底与7*24小时运行保障,跟进大模型推理服务、微调服务运行状态,保障AI业务稳定对外提供服务;
2. Linux服务器运维管理:熟练完成Linux服务器环境初始化搭建、应用服务部署、参数配置、性能监控、日常巡检,处理服务器内核、磁盘、内存、网络等底层硬件及系统层面异常问题;
3. 容器化服务运维:负责Docker、Docker Compose容器化服务的编排部署、版本迭代更新、线上故障排查、容器资源配额管控、镜像管理,完成容器服务迁移与扩容运维工作;
4. 系统版本发布与日常管控:负责业务系统现场版本发布、灰度更新、服务启停、账号权限划分配置、全链路运行状态定时巡检,输出标准化巡检报告,提前预判系统运行风险;
5. 基础设施搭建与灾备维护:参与项目底层基础设施建设,完成局域网网络环境配置、跨服务互联互通调试、全量数据定时备份、系统宕机快速恢复、灾备演练等工作,筑牢底层运行底座;
6. 大模型与GPU专项运维:协助完成GPU算力环境调试、大模型基础服务部署、推理接口运维、显存占用监控、大模型运行日志分析,解决大模型服务启动失败、推理超时、算力不足等常见现场问题,提供AI平台底层环境支撑;
7. 中间件与数据库运维排障:负责日志系统、缓存服务、PostgreSQL数据库、Nginx、Kafka等中间件的日常运维、性能调优、异常告警处理,快速定位并解决服务连接失败、数据堆积、缓存击穿等线上问题;
8. Python运维自动化开发:基于Python开发轻量化运维脚本、自动化巡检工具、日志清洗分析脚本、服务状态监控脚本、批量部署脚本,替代重复性人工运维工作,提升现场运维效率;编写简易接口脚本,完成大模型服务接口调用、状态自动化检测;
9. 现场技术支撑与项目交付:常驻项目现场提供一线技术支撑,对接项目组、甲方处理现场突发技术问题;配合项目全流程实施、验收及交付工作,按要求完成阶段性封闭部署、压力测试、上线值守等专项任务。
任职要求
1. 大专及以上学历,计算机、网络工程、软件工程、信息技术等相关专业优先,有1-3年现场运维/运维开发相关工作经验;
2. 精通Linux系统常用命令、系统权限管理、进程管理、磁盘与网络排查等服务器全流程日常运维操作,可独立处理服务器底层故障;
3. 熟练掌握Docker、Docker Compose容器编排、镜像制作、容器启停、网络与存储配置、容器故障排查等容器全生命周期管理能力;
4. 必备技能:熟练掌握Python编程语言,能够独立使用Python编写自动化运维脚本、日志分析脚本、批量运维工具、接口调用脚本,熟悉os、subprocess、requests、logging等常用运维相关库;
5. 必备认知:了解大模型基础理论知识,熟悉大模型部署基本流程、GPU算力适配要求、大模型推理服务运行逻辑,了解大模型常见运维痛点及基础优化方案;
工作说明
1. 岗位定位:本岗位不属于纯研发开发岗,也区别于传统纯现场运维岗,属于现场运维+轻量化运营开发复合型岗位,核心工作为现场系统部署、AI平台运维、项目实施交付,辅以Python脚本自动化开发,简化人工运维工作量;
2. 核心能力要求:重中之重为Linux实操能力、现场应急排障能力,同时必须具备Python代码编写能力与大模型基础认知,二者为岗位入职必备条件;
3. 工作模式说明:根据项目上线、验收、重大升级节点,会安排封闭式集中工作,单次封闭周期一般为2-5天,封闭期间全程驻场值守,保障系统零故障上线;
4. 工作节奏说明:项目实施期现场工作节奏紧凑,需高频完成环境配置、版本发布、故障处理、巡检值守、自动化脚本迭代等工作;项目平稳运行期以日常监控、例行维护、工具优化为主;
5. 工作产出要求:除日常运维保障外,需持续通过Python脚本优化现有运维流程,降低人工操作失误率;同步积累大模型运维故障案例,完善现场AI平台运维标准流程。
工作地点
南京鼓楼区苏电宾馆

公司信息
公司介绍
江苏秉信科技有限公司成立于2011年7月1日,注册资金1096.55万元,公司目前位于南京市雨花台区大数据产业基地,是专业从事行业应用软件开发、信息系统集成、数据挖掘分析、可视化技术应用的高新技术企业。秉信科技长期专注于电力系统自动化与信息化领域,自主研发的各类软件产品在国网供电公司建设数字化电网的背景之下,围绕能源互联网核心价值链,利用“模型、数据”标准化和关联性,应用“云、大、物、移、智"等先进技术,凸显“共享、智能、开放、安全”的特征,旨在实现“全业务信息感知、全系统协同控制、全过程在线决策、全时空优化平衡、全方位负荷调度”的愿景。秉信科技的产品涵盖电网调度运行指挥、电网检修计划、电网运行分析、电网设备监控、配网抢修指挥、电网物资管理、技能培训、大屏可视化等,一方面实现调度运行、运维抢修、项目物资、人力资源等业务的规范化、流程化管理,另一方面实现机构间数据的实时交互与共享,支撑电网指挥人员的信息感知与指挥决策,为大电网安全运行、清洁能源消纳和电力市场化运作提供完善的技术保障。凭借多年应用系统开发以及信息集成服务的积累,秉信科技已经成为电力行业内著名的应用系统解决方案提供商。
工商信息
企业名称 江苏秉信科技有限公司
企业类型 有限责任公司(自然人投资或控股)
法人代表 钱凌
经营状态 存续
成立时间 2011-07-01
注册资本 1096.55万元
认证资质
营业执照信息

更新于 今天



