平台运维工程师
M
Moledao
5 - 16K USD
Full-time
Remote
可选Base地:新加坡、马来西亚、阿布扎比
BOE(Business Operations Engineer)是一个面向业务交付的技术岗位:通过平台化与自动化,让研发/业务团队更快、更稳、更安全地上线与运行。你会更像“内部平台产品 + 运维工程”结合体,而不是传统意义的“值班运维”。
你要负责什么
- 交付与发布体系建设:完善 CI/CD、环境管理、发布策略(灰度/回滚/变更控制),提升交付效率与可控性。
- 基础设施自动化/IaC:推动基础设施即代码、标准化资源模板与一键化部署,减少手工操作与配置漂移。
- 可观测性与运营数据:搭建/优化监控、日志与告警体系(指标/日志/链路),做告警降噪,提升故障定位与恢复速度。
- 容量与成本治理:基于业务增长做容量规划,持续优化云资源与成本(资源回收、规格优化、策略治理)。
- 稳定性与事故机制:沉淀 runbook、演练预案、故障复盘机制(RCA),推动“可恢复、可预防”的工程化改进。
- 云原生平台治理:参与 Kubernetes 平台运行与治理,支持入口/网关(Ingress/Nginx 等)以及服务治理组件(如 Envoy / Service Mesh)的落地与维护。
- 安全与合规落地:推进权限最小化(AWS IAM/K8s RBAC)、网络策略、漏洞修复流程与事件响应机制。
我们希望你具备
- 5年以上 Linux / DevOps / SRE / 平台工程相关经验,具备分布式系统的排障与治理能力
- 熟悉 AWS 核心服务(如网络、计算、存储、权限等),有架构/运维/成本优化经验
- 熟悉 Kubernetes 生产实践:集群治理、常见故障定位、稳定性与性能优化
- 对 CI/CD、IaC、自动化脚本有实战经验,至少掌握一门语言(Go / Python / Shell)用于工具化落地
- 有可观测性体系经验(如 Prometheus / ELK 等),能把“指标—告警—定位—恢复”闭环跑起来
- 安全意识强,理解常见系统/网络/应用安全问题与缓解思路(权限、漏洞、应急)
加分项
- 做过平台 Owner 或跨团队推动标准化/平台化的经验
- 可观测性深度经验(Prometheus/Grafana/ELK 体系化建设)
- AWS / Kubernetes 相关认证
- 会中文加分