职位描述
作为 SRE Cloud Space 团队的高级网站可靠性工程师,您将站在开发和维护高级可观察性解决方案的最前沿。该职位的重点是利用各种尖端技术,在内部部署和 GCP 环境中加强黑盒和白盒监控、实施合成测试并提高平台可靠性。
offer要求 [offer requirements]
教育背景:计算机科学、工程学学士学位或同等经验。
DevOps & SRE 经验:+3 年以上 DevOps 和站点可靠性工程经验,重点关注自动化、基础设施即代码和持续集成/持续部署 (CI/CD) 实践。
编程经验:3 年以上编程经验,重点关注 Golang 开发。
监控工具专业知识:3 年以上 APM 和监控工具(如 Dynatrace、Prometheus、ELK、Splunk 或类似工具)使用经验。
云计算和内部部署能力:精通 Google 云平台 (GCP),并具有内部部署环境的经验,尤其是 OpenShift 上的应用程序部署和管理经验。
容器编排:拥有 Kubernetes (K8s) 和 OpenShift 等容器编排技术方面的经验。
CI/CD 方面的专业知识:拥有 CI/CD 部署管道方面的经验,确保自动化和可靠的部署流程。
系统架构:在设计和部署可扩展且有弹性的系统方面经验丰富,了解云原生原则。
系统监控和异常检测:在实施黑盒和白盒监控解决方案方面拥有丰富的经验,重点关注 SLO 和异常检测。
offer福利 [offer benefits]
Linux 背景:熟悉 Debian 和 Ubuntu 环境。
熟悉其他工具:具有使用 Jenkins、Terraform、Datadog、K6 或类似技术的经验。
网络技术:了解网络协议和技术,如 HTTP、TLS、REST、Nginx 和 API 网关。