高级云原生运维工程师(监控与日志方向)
Highblock Limited
岗位职责
1.构建企业级可观测性体系:主导基于Prometheus、Grafana、Alertmanager的监控平台建设,实现对 Kubernetes集群、微服务应用、中间件及基础设施的全链路指标采集、告警治理与可视化分析。
2.设计高可用日志解决方案:搭建并优化ELK(Elasticsearch + Logstash + Filebeat)或 Loki + Fluentd 日志架构,实现日志自动采集、结构化处理、高效检索与长期归档,支撑安全审计与故障回溯。
3.负责多云环境下的云原生平台运维:在AWS EKS 与华为云 CCE上部署、调优和管理大规模 Kubernetes 集群,保障容器化应用的高可用、弹性伸缩与安全合规。
4.开发智能运维工具链:结合业务场景,使用 Python/Go/Shell等语言开发自动化脚本或平台模块,提升监控覆盖、日志治理、故障自愈等运维效率。
任职要求
1.本科及以上学历,计算机、网络工程或相关专业,5年以上云原生或 SRE 运维经验,有大型互联网或金融行业背景者优先。
2.精通 Kubernetes 生态:深入理解 K8s 核心组件与调度机制,熟练使用 Helm、Kustomize等工具,具备生产环境集群调优与故障排查能力。
3.具备完整的可观测性落地经验:
- 监控:熟练使用 Prometheus + Grafana 构建指标体系,能编写复杂 PromQL,熟悉Thanos/Mimir 等长期存储方案;
- 日志:有 ELK 或 Loki 栈的深度调优经验(如 ES性能优化、日志采样、冷热分离)。
4.熟悉主流公有云平台:
- AWS:熟练使用 EKS、CloudWatch、OpenSearch Service、VPC、ALB 等服务;
- 华为云:熟悉 CCE、LTS(日志服务)、APM、CES、VPC 及专线/VPN 接入方案;具备混合云或多云统一监控/日志治理经验者优先。
5.硬性要求:扎实的编码能力,能熟练使用 Python/Go/Shell 至少一种语言开发运维工具、自动化脚本或集成插件。
6.具备良好的系统思维、沟通协作能力与责任心,能在高压环境下快速定位并解决复杂问题。
加分项:持有Kubernetes CKA、CKS认证