岗位职责:
1.设计、构建与优化符合公司策略的云平台架构与解决方案,确保应用系统的高可用性、弹性伸缩能力、卓越性能、安全保障及成本效益;
2.负责公司私有云及外部主流公有云(如阿里云、Azure)平台的管理、部署和日常运维;
3.负责基于Rancher的Kubernetes(K8S)平台的核心技术管理,包括集群生命周期管理(部署、升级、扩缩容)、安全策略实施、监控告警优化、日常运维及故障排除;
4.负责制定并持续完善公司云平台管理策略,推动其落地实施,并建立效果评估与反馈机制。
岗位任职要求:
1.本科及以上学历,计算机科学与技术/软件工程/信息与计算科学等相关专业;
2.熟悉云原生应用架构,精通容器编排技术,熟练掌握Rancher等Kubernetes集群管理工具,熟悉服务网格(如Istio)。持有CKA认证者优先;
3.精通阿里云、Azure云等主流公有云平台管理(IaaS/PaaS核心服务)。持有阿里云ACP、微软相关云认证者优先;
4.熟悉GPU资源的规划、调度、监控和优化。具备大语言模型(LLM)等AI工作负载相关基础设施的管理经验者优先;
5.熟练掌握Java/Python/Go中至少一门主流编程语言,具备良好的自动化脚本编写或平台工具开发能力。具有开发Operator、CRD控制器或云原生相关工具,或具有Terraform等自动化开发经验者优先;
6.熟悉Kafka、RabbitMQ等消息中间件的原理与应用;
7.了解主流大数据处理与数据集成组件(如HDFS, Spark, Flink, FlinkCDC, Debezium等)的架构与工作原理者优先;
8.掌握操作系统(Linux为主)、计算机网络(TCP/IP协议栈、路由交换基础、防火墙)、分布式系统基础及容器技术等核心计算机理论知识;
9.具备大学英语六级(CET-6)或以上水平,具备优秀的英文技术文档阅读和编写能力;
10.具备优秀的沟通协调能力和团队合作精神。