资深运维工程师 at Best Web3

【岗位职责】

K8s生态与AWS云资源协同运维：

负责生产/测试环境Kubernetes集群（含EKS托管集群）的全生命周期管理，保障集群高可用（SLA≥99.95%）；

优化AWS云资源（EC2、RDS、S3、ELB、VPC等）与K8s集群的资源调度，推动成本优化（如Spot实例使用、自动扩缩容策略）；

主导EKS集群周边生态组件（如CoreDNS、Ingress Controller、AWS Load Balancer Controller）的版本迭代与稳定性调优，解决云原生场景下的网络、存储、计算资源异常。

监控与可观测性体系搭建：

基于夜莺（Nightingale）+ Prometheus + Grafana + FlashDuty + AWS CloudWatch技术栈，构建覆盖容器、主机、中间件、AWS云资源的全链路监控与事件管理体系；

AWS监控侧：

负责AWS资源（EC2、RDS、S3、ELB、Lambda等）的监控配置，通过CloudWatch采集指标（如CPU使用率、内存占用、磁盘IO、请求延迟）与日志（CloudWatch Logs）；

定制AWS专属告警规则（如RDS连接数超限、S3存储桶流量突增、Lambda函数错误率升高），并将告警同步至夜莺与FlashDuty，实现跨平台告警聚合；

分析AWS资源监控数据（如CloudWatch Metrics、Logs Insights），定位云资源性能瓶颈（如EC2实例CPU争用、RDS慢查询），推动优化方案（如调整实例类型、优化SQL索引）；

夜莺+FlashDuty侧：

维护夜莺平台的时序数据库与告警规则引擎，对接Prometheus、AWS CloudWatch等多数据源，实现指标统一展示与告警收敛；

运营FlashDuty事件中心，定义AWS资源告警的分级（P0-P4）与分派策略（如EC2故障派至基础设施组、RDS问题派至数据库组），跟踪事件闭环并优化响应效率。

CI/CD流水线与AWS云原生工具链整合：

负责DevOps工具链（Jenkins/GitLab CI/Argo CD/FluxCD）与AWS服务（CodePipeline、CodeBuild、EKS）的集成，设计混合云场景下的CI/CD流程；

推动容器镜像构建（ECR）、制品存储（S3）、环境灰度发布（EKS Blue/Green Deployment）等环节的自动化，缩短发布周期；

优化流水线性能，结合AWS Spot实例、缓存策略降低构建成本，提升研发体验。

中间件与AWS服务稳定性保障：

维护MySQL/Redis/RabbitMQ/Kafka/Elasticsearch等核心中间件集群（含AWS托管服务如RDS for MySQL、ElastiCache for Redis），制定高可用架构方案；

监控中间件与AWS服务的交互状态（如RDS连接池使用率、Kafka与S3的消息同步延迟），提前预警并解决跨服务性能瓶颈；

推动中间件与AWS服务的标准化配置（如RDS参数组调优、ElastiCache节点类型选择），输出运维SOP与故障处理手册。

跨团队协作与AWS技术赋能：

对接研发、测试团队，提供AWS云资源使用规范（如IAM权限、安全组配置）、容器化上云及CI/CD流程等技术支持；

总结AWS监控与云原生运维经验，沉淀技术文档与最佳实践，定期开展内部培训（如CloudWatch指标解读、夜莺与AWS集成排障）。

【任职要求】

基础要求：本科及以上学历，计算机/软件相关专业，3年以上运维/DevOps相关经验，1年以上AWS云服务运维经验；

技术深度：

精通Kubernetes核心原理（调度、网络、存储），熟悉EKS托管集群的部署与运维（如eksctl、kubeadm for EKS），有大规模EKS集群（≥50节点）运维经验优先；

熟练使用 AWS CloudWatch进行指标采集、告警配置与日志分析（CloudWatch Logs Insights），掌握CloudWatch Metrics Explorer、Alarms、Dashboards的使用；

熟练使用夜莺（Nightingale）搭建监控告警体系，具备多数据源（Prometheus、CloudWatch）集成与统一展示能力；

熟悉 FlashDuty的事件管理流程，掌握与AWS告警的联动配置（如通过Lambda触发FlashDuty事件）；

熟悉Prometheus+Grafana+Alertmanager监控栈，掌握OpenTelemetry数据采集与Tracing链路追踪；

熟悉至少一种CI/CD工具链（如Argo CD/Jenkins），具备与AWS CodePipeline/CodeBuild集成的实战经验；

掌握MySQL/Redis/RabbitMQ等中间件与AWS服务（如RDS、ElastiCache）的协同运维，熟悉高可用架构设计；

问题解决能力：具备快速定位复杂问题的能力（如EKS节点网络丢包、RDS跨可用区同步延迟），能通过CloudWatch日志、夜莺指标与链路追踪串联根因；

AWS认证：持有 AWS Certified SysOps Administrator - Associate或 AWS Certified Cloud Practitioner认证优先；