如何让Kubernetes变得简单?微软在Azure服务中增加了人工智能工具链操作符

作者:Yu 来源:原创 2023-11-16

  如果想要大规模运行人工智能和机器学习应用程序,比如大模型,必须在Kubernetes上运行它们。然而,掌握Kubernetes并不容易。这就是Kubernetes人工智能工具链运营商,微软Azure Kubernetes服务(AKS)的最新成员的作用所在。

  AKS已经让Azure上的Kubernetes变得更容易了。AKS内置的代码到云的管道和护栏可以更快地开始在Azure中开发和部署云原生应用程序,而不是手工完成。通过对内部部署、边缘和多云Kubernetes集群的统一管理和治理,AKS还使与Azure安全、身份、成本管理和迁移服务的集成变得更简单。

  Kubernetes人工智能工具链运营商带来的是自动化的方式,以经济有效的方式运行开源软件人工智能/机器学习工作负载,减少人工配置。它还通过为您的LLM或其他项目选择最佳大小的基础设施,在AKS上跨可用CPU和GPU资源自动部署LLM模型。

  AI工具链操作器通过自动配置必要的GPU节点并将相关的推理服务器设置为AI模型的端点服务器来实现这一点。一个推理服务器,如hug Face的7B或NVIDIA的Triton推理服务器,将训练有素的人工智能模型应用于传入的数据,以做出实时决策。推理是通过训练有素的人工智能模型运行实时数据以做出预测或解决任务的过程。使用此附加组件可以减少您的入职时间,并使您能够专注于AI模型的使用和开发,而不是基础设施设置。

  它还使跨多个低GPU计数的虚拟机(Virtual Machine)轻松分割推理成为可能。这意味着可以在更多的Azure区域上运行大模型,从而消除具有更高GPU数量虚拟机的Azure区域的等待时间,并降低总体成本。换句话说,您可以自动在更低功耗、更便宜的区域上运行大模型。

  为了更容易设置,还可以选择带有AKS托管图像的预设模型。这大大减少了总体服务设置时间。一旦它启动并运行了一段时间,您就可以调整Azure模型以更好地适应您的工作负载。

  此外,Azure Kubernetes Fleet Manager支持AKS集群的多集群和大规模场景。管理具有许多集群的Kubernetes舰队的平台管理员经常面临以安全和可预测的方式进行更新的挑战。这允许管理员通过使用更新运行、阶段和组来跨多个集群编排更新。由于AI/ML工作负载往往非常苛刻,这使得管理它们变得更加容易。

发布
X
第三方账号登录
  • 微博认证登录
  • QQ账号登录
  • 微信账号登录

企业俱乐部