职位描述
本站申请链接
Scaleway 成立于 1999 年,是 Iliad 集团在云计算领域的子公司,也是欧洲电信业的领导者之一。我们的使命是通过帮助开发人员和企业创建、部署和适配各种基础设施上的应用程序,促进数字产业的责任感。通过位于巴黎和里尔的办事处,我们不断完善 Scaleway 的云计算生态系统,我们是首批用户。我们的25,000多家客户选择了我们的多AZ云服务、我们丰富的用户体验、我们的碳中性数据中心以及我们的多云架构管理工具。我们的产品包括针对裸机、控制和无服务器架构的全面解决方案,为云计算领域提供负责任的选择。加入我们充满活力的 600 多名来自不同领域的合作者组成的团队,在一个充满活力和国际化的环境中学习卓越的技术、创造力和合作精神。
offer要求
至少使用以下一种语言进行系统编程的经验:Python、Bash、Go 等。
展现出排除生产系统故障的能力
积极的心态和与团队合作的愿望
对自动化和逐步改进工具的热情,
对 Linux 系统(基于 Debian 和 Centos 衍生版本)的使用经验
对 Slurm、OAR、SGE 等批处理作业调度程序的使用经验
对计算机网络有很好的了解:TCP/IP、DNS、负载平衡、IPv6、防火墙、网络、Infiniband、vlan/分区……
存储知识:大型池、NAS、S3……
具有使用 Nvidia、Cuda、MPI 的经验
良好的英语能力
能够细致地识别和解决任何代码库中的任何类型的错误。
具有代码即基础设施和持续部署方面的经验
具有处理物理硬件自动化的经验
具有监控和记录系统的经验
具有处理物理硬件自动化的经验;记录系统的经验
处理帐户管理(LDAP)的经验
了解至少一种云平台和相关用案例
作为开放源码软件贡献者和/或维护者的经验
了解 AI / LLM / ML / 神经元网络
offer待遇
创建或优化现有工具和文档,以帮助识别、诊断和解决故障;
通过与多个工程团队(存储、网络、硬件)合作,排除影响较大的问题
承担随叫随到的责任、
承担随叫随到的责任,缓解生产中遇到的问题,并实时回答客户的问题
利用可观察性和监控技术,确保为客户提供高质量的服务
管理生产中高性能计算集群的生命周期,并参与将硬件和软件问题上报给供应商的工作
帮助您的团队成员在我们的系统中迅速集成和部署软件组件
帮助实现最佳稳定性、
帮助在我们的系统中实施最佳稳定性、弹性、可扩展性、安全性和性能实践