资深运维工程师
Best Web3
【岗位职责】
K8s生态与AWS云资源协同运维:
负责生产/测试环境Kubernetes集群(含EKS托管集群)的全生命周期管理,保障集群高可用(SLA≥99.95%);
优化AWS云资源(EC2、RDS、S3、ELB、VPC等)与K8s集群的资源调度,推动成本优化(如Spot实例使用、自动扩缩容策略);
主导EKS集群周边生态组件(如CoreDNS、Ingress Controller、AWS Load Balancer Controller)的版本迭代与稳定性调优,解决云原生场景下的网络、存储、计算资源异常。
监控与可观测性体系搭建:
基于 夜莺(Nightingale)+ Prometheus + Grafana + FlashDuty + AWS CloudWatch技术栈,构建覆盖容器、主机、中间件、AWS云资源的全链路监控与事件管理体系;
AWS监控侧:
负责AWS资源(EC2、RDS、S3、ELB、Lambda等)的监控配置,通过CloudWatch采集指标(如CPU使用率、内存占用、磁盘IO、请求延迟)与日志(CloudWatch Logs);
定制AWS专属告警规则(如RDS连接数超限、S3存储桶流量突增、Lambda函数错误率升高),并将告警同步至夜莺与FlashDuty,实现跨平台告警聚合;
分析AWS资源监控数据(如CloudWatch Metrics、Logs Insights),定位云资源性能瓶颈(如EC2实例CPU争用、RDS慢查询),推动优化方案(如调整实例类型、优化SQL索引);
夜莺+FlashDuty侧:
维护夜莺平台的时序数据库与告警规则引擎,对接Prometheus、AWS CloudWatch等多数据源,实现指标统一展示与告警收敛;
运营FlashDuty事件中心,定义AWS资源告警的分级(P0-P4)与分派策略(如EC2故障派至基础设施组、RDS问题派至数据库组),跟踪事件闭环并优化响应效率。
CI/CD流水线与AWS云原生工具链整合:
负责DevOps工具链(Jenkins/GitLab CI/Argo CD/FluxCD)与AWS服务(CodePipeline、CodeBuild、EKS)的集成,设计混合云场景下的CI/CD流程;
推动容器镜像构建(ECR)、制品存储(S3)、环境灰度发布(EKS Blue/Green Deployment)等环节的自动化,缩短发布周期;
优化流水线性能,结合AWS Spot实例、缓存策略降低构建成本,提升研发体验。
中间件与AWS服务稳定性保障:
维护MySQL/Redis/RabbitMQ/Kafka/Elasticsearch等核心中间件集群(含AWS托管服务如RDS for MySQL、ElastiCache for Redis),制定高可用架构方案;
监控中间件与AWS服务的交互状态(如RDS连接池使用率、Kafka与S3的消息同步延迟),提前预警并解决跨服务性能瓶颈;
推动中间件与AWS服务的标准化配置(如RDS参数组调优、ElastiCache节点类型选择),输出运维SOP与故障处理手册。
跨团队协作与AWS技术赋能:
对接研发、测试团队,提供AWS云资源使用规范(如IAM权限、安全组配置)、容器化上云及CI/CD流程等技术支持;
总结AWS监控与云原生运维经验,沉淀技术文档与最佳实践,定期开展内部培训(如CloudWatch指标解读、夜莺与AWS集成排障)。
【任职要求】
基础要求:本科及以上学历,计算机/软件相关专业,3年以上运维/DevOps相关经验,1年以上AWS云服务运维经验;
技术深度:
精通Kubernetes核心原理(调度、网络、存储),熟悉EKS托管集群的部署与运维(如eksctl、kubeadm for EKS),有大规模EKS集群(≥50节点)运维经验优先;
熟练使用 AWS CloudWatch进行指标采集、告警配置与日志分析(CloudWatch Logs Insights),掌握CloudWatch Metrics Explorer、Alarms、Dashboards的使用;
熟练使用 夜莺(Nightingale)搭建监控告警体系,具备多数据源(Prometheus、CloudWatch)集成与统一展示能力;
熟悉 FlashDuty的事件管理流程,掌握与AWS告警的联动配置(如通过Lambda触发FlashDuty事件);
熟悉Prometheus+Grafana+Alertmanager监控栈,掌握OpenTelemetry数据采集与Tracing链路追踪;
熟悉至少一种CI/CD工具链(如Argo CD/Jenkins),具备与AWS CodePipeline/CodeBuild集成的实战经验;
掌握MySQL/Redis/RabbitMQ等中间件与AWS服务(如RDS、ElastiCache)的协同运维,熟悉高可用架构设计;
问题解决能力:具备快速定位复杂问题的能力(如EKS节点网络丢包、RDS跨可用区同步延迟),能通过CloudWatch日志、夜莺指标与链路追踪串联根因;
AWS认证:持有 AWS Certified SysOps Administrator - Associate或 AWS Certified Cloud Practitioner认证优先;
软技能:良好的沟通协作能力,能推动跨团队技术落地;具备技术文档编写习惯,乐于分享经验。