职位描述 AIOps平台迭代与开发 a. 构建面向大模型业务的全生命周期AIOps平台,覆盖开发、测试、监控全流程; b. 建设标准化工具链与自动化流程,落地跨团队高效协作范式,加速业务迭代与成果转化。 日常稳定性问题跟进 a. 监控系统运行状态,负责故障发现、告警触达与根因分析跟进,确保SLA>99.9%; b. 处理稳定性事件(如资源瓶颈、服务异常),实施容灾措施; c. 协助构建高可用推理集群的运维规范,优化流程,推动自动化流程落地; 任职要求 1. 本科及以上学历,有1-5年Java相关开发经验; 2. JAVA基础扎实,理解IO、多线程、集合等基础框架,对JVM原理有一定的了解; 3. 具备分布式系统设计经验,熟悉MySQL/Kafka/Redis等中间件,掌握高并发场景性能优化方法,能独立设计高稳定、可扩展的技术方案; 4. 优秀的需求分析与抽象能力,能将业务逻辑转化为模块化、可复用的技术组件; 5. 有以下经验者优先: a. 具备工作流引擎开发经验,熟悉DAG调度、容错机制; b. 有AIGC应用相关的开发经验; 简历需要具备的硬性要求 JAVA 引擎 编排