大数据和AI事业部:
工作概述
1、系统可靠性与稳定性:监控基础设施(服务器、网络、存储等)及应用服务的运行状态,通过自动化工具和策略提升系统可用性(SLA),应对突发故障并快速恢复。
2、自动化与工具开发:设计和优化自动化运维工具(如配置管理、部署流水线),减少人工干预,提高运维效率。
3、问题分析与故障处理:定位生产环境中的复杂问题,通过日志分析、监控数据挖掘根因,推动系统性解决方案落地。
4、安全与风险管理:参与系统安全评估,制定防护策略,防范潜在漏洞,保障数据安全和合规性。
5、技术协作与知识沉淀:与开发、产品团队紧密合作,推动技术方案落地;总结运维经验,编写技术文档,促进团队知识共享。
详细招聘描述
1、学历与经验:本科及以上学历,计算机相关专业,有SRE或DevOps工作经验优先。
2、技术能力:
1)熟悉Linux/Windows操作系统管理。
2)掌握常见数据库(如MySQL、Redis、Elasticsearch)的配置与优化。
3)熟悉容器技术(如Docker、Kubernetes)和云服务平台(如AWS、Azure)。
4)具备编程能力,熟悉Python、Go、Java等语言。
5)熟悉自动化运维工具(如Ansible、Terraform)和监控工具(如Prometheus、Grafana)。
3、软技能:
1)较强的学习能力和问题解决能力。
2)良好的沟通能力,适应跨团队协作