通过 Amazon EKS 和 Karpenter 扩展药物发现的 AI 训练和推理 机器学习博客
- 25
扩展药物发现的AI训练与推理:使用Amazon EKS和Karpenter
作者 Matthew Welborn Paul Whittemore与Alex Iankoulski日期 2024年4月19日
关键要点
Iambic Therapeutics利用AI技术加速药物分子的发现与开发。通过Amazon EKS与Karpenter实现可扩展的AI训练与推理架构。应用KEDA进行动态Pod与集群的自动缩放,以满足不同工作负载的需求。迁移至GPU实例显著提升了推理与训练的效率。在这篇文章中,我们将重点讨论如何通过使用Karpenter在Amazon Elastic Kubernetes Service (EKS)上扩展AI训练和推理,来支撑Iambic Therapeutics的药物发现平台。
可扩展AI训练与推理的需求
Iambic每周在数十个模型和数百万个分子上执行AI推理,主要用于两个用例:
医药化学家及其他科学家使用我们的网页应用程序Insight,实时探索化学空间、访问和解读实验数据,并预测新设计分子的性质。该工作需要低延迟和中等吞吐量的推理。同时,我们的生成AI模型自动设计出针对多个属性改善的分子,搜索数百万个候选分子,这需要巨大的吞吐量和中等的延迟。我们的实验平台通过AI技术和专家药物猎人的指导,每周产生数千个独特的分子,并进行多次数生物检测。产生的数据点会自动处理,并用于微调我们的AI模型。最初,我们的模型微调需要数小时的CPU时间,因此建立一个在GPU上扩展模型微调的框架至关重要。
我们希望构建一个可扩展的系统来支持AI训练和推理,使用Amazon EKS并寻求最佳的工作节点自动缩放解决方案。我们选择Karpenter进行Kubernetes节点自动缩放的原因包括:
与Kubernetes的无缝集成,利用Kubernetes语义来定义节点要求及启动策略。低延迟地扩展节点。便于与基础设施代码工具如Terraform集成。解决方案概述
在本节中,我们展示一个通用架构,类似于我们为自己的工作负载使用的架构,允许基于自定义指标的有效自动扩展模型。
以下框架图示意了解决方案架构:
该架构在一个EKS集群内部署一个简单服务。该服务由HTTP请求调用,并通过Traefik反向代理暴露。Karpenter监控未能运行的待处理Pod,如果检测到,将向集群添加更多节点以提供所需资源。反之,如果集群中多余的节点超出了已调度的Pod需求,Karpenter会移除一些工作节点并重新调度Pod,从而在较少的实例上进行集中运行。
解决方案部署
在逐步指南中,我们使用AWS Cloud9作为环境来部署 architecture。为了简化部署流程并提高可重复性,我们遵循doframework原则,并克隆awsdoeks项目。
以下是我们的EKS集群配置示例:
yamlapiVersion eksctlio/v1alpha5kind ClusterConfigmetadata name doeksyamlkarpenterversion 128region uswest2tags karpentersh/discovery doeksyamlkarpenteriam withOIDC trueaddons name awsebscsidriver version v1260eksbuild1managedNodeGroups name c5xldoekskarpenterng instanceType c5xlarge privateNetworking true minSize 0 desiredCapacity 2 maxSize 10 volumeSize 300
该清单定义了一个名为doeksyamlkarpenter的集群,并安装了EBS CSI驱动。
结果与总结
Iambic使用该架构提高了AWS上GPU的有效利用率,并将工作负载从CPU迁移至GPU。以下表格总结了该迁移的时间指标:
任务CPUsGPUs物理基础的ML模型推理3600秒100秒机器学习模型训练作为服务180分钟4分钟通过结合Pod和集群的自动扩展,确保集群随着工作负载动态扩展,在需要资源时分配、闲置时移除,从而实现最大化利用与成本控制。
如您有兴趣了解更多,可以访问我们的GitHub。
关于作者
Matthew Welborn 是Iambic Therapeutics的机器学习总监,专注于利用AI加速新疗法的识别和开发,为患者更快提供生命救助药物。
Paul Whittemore 是Iambic Therapeutics的首席工程师,致力于为AI驱动的药物发现平台提供基础设施支持。
Alex Iankoulski 是首席解决方案架构师,专注于帮助客户利用容器和加速计算基础设施在AWS上编排AI工作负载。
pixiv加速器免费安卓