高级SRE运维
惠州市易房通科技有限公司
【高级SRE运维】
拥有从零设计或主导改造核心业务上云、混合云容灾架构的成功项目者优先考虑。具备从零构建或重构监控、告警、变更管控、容量规划、应急预案等SRE核心体系的经验者优先考虑。具备通过技术手段(架构优化、资源调度)和管理手段(供应商谈判)实现大规模成本节约的实战成果者优先考虑。
【核心职责】
1. 技术战略与规划: 负责公司级SRE技术规划的制定,从风险治理、技术债管理、架构防腐化等视角,确保技术架构的前瞻性和健壮性。
2. 稳定性保障体系构建: 领导团队落地涵盖监控、告警、限流、降级、预案、压测的全链路业务连续性保障体系,确保核心业务在面对突发流量时的高可用性。
3. 云原生与成本优化: 深度主导混合云、多云架构的设计与落地;建立并推行FinOps文化,通过系统化手段实现成本的显著优化。
4. 效率与质量提升:
· 推动统一部署、自动化运维平台的建设,提升研发和交付效率。
· 建立变更风险管控和质量门禁,降低线上故障率。
· 优化应用启动速度、部署流程,提升迭代频率。
5. 团队管理与人才培养: 领导并赋能SRE/运维团队,负责团队的技术方向规划、项目管理和人才梯队建设。
【技术栈要求】
1、核心平台与架构: Kubernetes, Docker, 云原生混合云架构, OpenResty, 微服务治理
2、中间件与消息队列: Kafka, Zookeeper, Etcd, Nginx, 负载均衡技术
3、监控与可观测性: Grafana, ELK, eBPF, 全链路追踪, 自定义监控体系
4、编程与自动化: Shell, Python, Java(了解)
5、公有云服务: 熟悉AWS、阿里云、腾讯云等至少一家的核心服务(ECS/SLB/RDS/OSS等)
6、基础设施: 深度掌握Linux操作系统、网络、存储及服务器管理