网站可靠性工程师

  • 海外
  • 台湾
  • Full全职 USD / 年

官网 null Aethir

职位描述

Aethir 是唯一一家专注于人工智能 GPU 的企业级级人工智能 GPU 即服务提供商。其分散式云计算基础设施允许 GPU 提供商(容器)满足需要强大 GPU 芯片执行专业 AI/ML 任务的企业客户的需求。Aethir拥有超过40,000颗顶级GPU(包括3,000颗英伟达H100)的不断增长的网络,因此能够在任何需要的地方大规模提供企业级GPU计算。
Aethir由Framework Ventures、Merit Circle、Hashkey、Animoca Brands、Sanctor Capital、Infinity Ventures Crypto(IVC)等领先的Web3投资者支持,为生态系统筹集了超过1.3亿美元的资金,正在为去中心化计算的未来铺平道路。
我们正在寻找一名运维开发工程师(SRE)加入我们位于马来西亚吉隆坡的新总部,他将在监控、故障排除和优化我们的生产系统方面发挥关键作用,以确保为我们全球的人工智能和游戏客户提供最高级别的性能和稳定性。

offer要求 [offer requirements]

  • 计算机科学、工程或相关领域的学士学位。
  • 具有运维开发经验,最好是在云计算或以人工智能为重点的环境中。
  • 深入了解系统架构、性能监控和故障排除方法。
  • 出色的沟通和协作技能。
  • 能够在快节奏的创业环境中工作。
  • 熟练掌握 Kubernetes (K8S)、CI/CD 和 Docker。
  • 精通 AWS(VPC、S3、EC2 等)或 Python(二者之一)。
  • 负责构建运维基础设施平台并处理核心业务运营。
  • 有在华为、中兴通讯或银行机构等结构化环境中工作经验者优先。

offer福利 [offer benefits]

  • 超高速增长的创业环境
  • 绝佳的职业发展机会
  • 在全球和本地团队中工作
  • 协作和创新的工作环境,有机会为前沿项目做出贡献。
滚动至顶部