资深 SRE / 基础设施架构师 (Principal DevOps Engineer)
97EX
【岗位职责】
1. 云原生架构设计与治理:
* 负责基于 AWS 和 Cloudflare 的高可用架构设计。不仅限于 CDN 配置,需深入使用 Cloudflare Workers 处理边缘逻辑,并利用 Argo Tunnel/Zero Trust 构建安全的访问层。
* 管理 AWS 多账号体系(Organizations),规划跨 Region 网络(Transit Gateway, VPC Peering, VPN),解决复杂的网络互通与延迟问题。
* 全面推行 IaC(Terraform/Pulumi),实现从边缘规则到底层资源的代码化管理,尽量消除控制台手动操作。
2. Kubernetes 深度工程化:
* 维护大规模 EKS 或自建集群。负责 Etcd、CNI(Cilium/Calico)、CoreDNS 等核心组件的性能调优与故障排查。
* 根据业务需求开发 K8s Operator/Controller 或 Kubectl 插件,提升平台自动化程度。
* 打通本地开发与生产环境(Docker Compose 到 Helm/Kustomize),确保环境一致性。
3. 工程效能与可观测性:
* 设计并维护复杂的 CI/CD 流水线,集成代码质量分析(SonarQube)、镜像安全扫描及自动化测试。
* 落地 GitOps(ArgoCD/Flux)流程。
* 建设基于 Prometheus 的监控体系,深入应用运行时(Go/Java Runtime)及系统底层(eBPF)的性能分析。
4. 系统底层与稳定性保障:
* 深入维护 Nginx, Redis, Kafka 等中间件,具备源码级问题定位或参数调优能力。
* 处理高并发场景下的系统瓶颈(如 TCP 队列、文件句柄、内存管理等)。
* Linux 系统专家: 深刻理解 Linux 内核原理。在生产环境中能熟练使用 perf, strace, tcpdump, eBPF 等工具定位 CPU、IO 或网络层面的疑难杂症。
* 云与网络深度: 熟悉 AWS 基础设施限制(API Rate Limit, EBS IOPS 等)及 Cloudflare 原理(Anycast, SSL 握手流程)。深入理解 TCP/IP 协议栈及 HTTP/2/3 协议细节。
* K8s 实战经验: 深入理解 Cgroups/Namespace 隔离机制,熟悉 Service Mesh(Istio/Linkerd),能快速定位 Pod 调度失败或 Crash 的根本原因。
* 开发能力: 熟练掌握 Golang 或 Python。不仅是写脚本,需具备阅读开源源码、修复 Bug 或开发后端工具的能力。
【加分项】
* CNCF 开源项目贡献者。
* 有亿级日请求量系统的维护经验。
* 有生产环境混沌工程(Chaos Engineering)落地经验。