亚马逊网络服务(aws)宣布了一个新的基于gpu的实例amazon p4d的可用性,该实例基于nvidia的新ampere架构,并且两家公司都在宣称性能。
aws十年来一直提供基于gpu的实例,最新一代的实例称为p3。aws和nvidia都声称,与p3实例相比,p4d实例在机器学习培训和高性能计算工作负载方面的性能提高了三倍,成本降低了60%,gpu内存增加了2.5倍。
根据nvidia的说法,与默认的fp32精度相比,使用fp16实例可以将机器学习模型的训练时间减少三倍,而使用tf32则可以将训练时间减少多达六倍,但是还可以训练更大,更复杂的模型。
这些也是一些重量级的实例。在一个ec2实例中,具有八个nvidia a100 gpu的p4d实例能够提供高达2.5 petaflops的混合精度性能和320gb的高带宽gpu内存。aws表示,p4d实例是第一个通过elastic fabric adapter(efa)和nvidia gpudirect rdma网络接口提供400 gbps网络带宽的设备,以实现跨服务器的gpu之间的直接通信,从而降低延迟和提高扩展效率。
每个p4d实例还提供96个intel xeon可扩展(级联湖)vcpu,1.1tb系统内存和8tb本地nvme存储,以减少单节点训练时间。通过将上一代p3实例的性能提高一倍以上,p4d实例可以将训练机器学习模型的成本降低多达60%。
“随着数据变得越来越丰富,客户正在训练具有数百万甚至数十亿个参数的模型,例如用于自然语言处理以进行文档摘要和问题解答,用于自动驾驶汽车的对象检测和分类,用于大规模内容审核的图像分类等参数,电子商务网站的推荐引擎,以及智能搜索引擎的排名算法,所有这些都需要增加网络吞吐量和gpu内存。” aws在一份声明中说。
该公司表示,客户可以使用带有amazon elastic kubernetes服务(amazon eks)或amazon elastic container service(amazon ecs)库的aws深度学习容器运行p4d实例。为了获得更全面的管理体验,客户可以通过amazon sagemaker使用p4d实例,该实例旨在帮助开发人员和数据科学家快速构建,训练和部署ml模型。
hpc客户可以将aws batch和aws parallelcluster与p4d实例结合使用,以帮助协调作业和集群。p4d实例支持所有的ml学习框架,包括tensorflow,pytorch和apache mxnet,使客户可以灵活地选择他们喜欢的框架。
p4d实例在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)地区可用,并计划在不久的将来提供更多的可用性。aws实例的起价为每小时32.77美元,但一年保留实例的价格降至每小时19.22美元,三年下来为11.57美元。
刚注册的域名能马上卖吗香港弹性云服务器快吗这个新模板这么添加在哪操作谢谢巴拿马云服务器高防建设网站后续工作需要循环渐进电脑文件夹怎么发送到微信 如何把电脑文件传送到微信上AJAX常见面试问题大汇总买个腾讯云服务器吗