hackquest logo

平台运维工程师

M

Moledao

5 - 16K USD
Full-time
Remote

可选Base地:新加坡、马来西亚、阿布扎比


BOE(Business Operations Engineer)是一个面向业务交付的技术岗位:通过平台化与自动化,让研发/业务团队更快、更稳、更安全地上线与运行。你会更像“内部平台产品 + 运维工程”结合体,而不是传统意义的“值班运维”。


你要负责什么

  • 交付与发布体系建设:完善 CI/CD、环境管理、发布策略(灰度/回滚/变更控制),提升交付效率与可控性。
  • 基础设施自动化/IaC:推动基础设施即代码、标准化资源模板与一键化部署,减少手工操作与配置漂移。
  • 可观测性与运营数据:搭建/优化监控、日志与告警体系(指标/日志/链路),做告警降噪,提升故障定位与恢复速度。
  • 容量与成本治理:基于业务增长做容量规划,持续优化云资源与成本(资源回收、规格优化、策略治理)。
  • 稳定性与事故机制:沉淀 runbook、演练预案、故障复盘机制(RCA),推动“可恢复、可预防”的工程化改进。
  • 云原生平台治理:参与 Kubernetes 平台运行与治理,支持入口/网关(Ingress/Nginx 等)以及服务治理组件(如 Envoy / Service Mesh)的落地与维护。
  • 安全与合规落地:推进权限最小化(AWS IAM/K8s RBAC)、网络策略、漏洞修复流程与事件响应机制。


我们希望你具备

  • 5年以上 Linux / DevOps / SRE / 平台工程相关经验,具备分布式系统的排障与治理能力
  • 熟悉 AWS 核心服务(如网络、计算、存储、权限等),有架构/运维/成本优化经验
  • 熟悉 Kubernetes 生产实践:集群治理、常见故障定位、稳定性与性能优化
  • CI/CD、IaC、自动化脚本有实战经验,至少掌握一门语言(Go / Python / Shell)用于工具化落地
  • 有可观测性体系经验(如 Prometheus / ELK 等),能把“指标—告警—定位—恢复”闭环跑起来
  • 安全意识强,理解常见系统/网络/应用安全问题与缓解思路(权限、漏洞、应急)


加分项

  • 做过平台 Owner 或跨团队推动标准化/平台化的经验
  • 可观测性深度经验(Prometheus/Grafana/ELK 体系化建设)
  • AWS / Kubernetes 相关认证
  • 会中文加分