高级网站可靠性工程师

职位描述

作为 SRE Cloud Space 团队的高级网站可靠性工程师,您将站在开发和维护高级可观察性解决方案的最前沿。该职位的重点是利用各种尖端技术,在内部部署和 GCP 环境中加强黑盒和白盒监控、实施合成测试并提高平台可靠性。

offer要求 [offer requirements]

  • 教育背景:计算机科学、工程学学士学位或同等经验。
  • DevOps & SRE 经验:+3 年以上 DevOps 和站点可靠性工程经验,重点关注自动化、基础设施即代码和持续集成/持续部署 (CI/CD) 实践。
  • 编程经验:3 年以上编程经验,重点关注 Golang 开发。
  • 监控工具专业知识:3 年以上 APM 和监控工具(如 Dynatrace、Prometheus、ELK、Splunk 或类似工具)使用经验。
  • 云计算和内部部署能力:精通 Google 云平台 (GCP),并具有内部部署环境的经验,尤其是 OpenShift 上的应用程序部署和管理经验。
  • 容器编排:拥有 Kubernetes (K8s) 和 OpenShift 等容器编排技术方面的经验。
  • CI/CD 方面的专业知识:拥有 CI/CD 部署管道方面的经验,确保自动化和可靠的部署流程。
  • 系统架构:在设计和部署可扩展且有弹性的系统方面经验丰富,了解云原生原则。
  • 系统监控和异常检测:在实施黑盒和白盒监控解决方案方面拥有丰富的经验,重点关注 SLO 和异常检测。
  • offer福利 [offer benefits]

  • Linux 背景:熟悉 Debian 和 Ubuntu 环境。
  • 熟悉其他工具:具有使用 Jenkins、Terraform、Datadog、K6 或类似技术的经验。
  • 网络技术:了解网络协议和技术,如 HTTP、TLS、REST、Nginx 和 API 网关。
  • 滚动至顶部