哈瓦那实验室-训练神经网络的NVIDIA的一个严肃的替代品?

今年6月,以色列初创公司哈瓦那实验室(Habana Labs)发布了用于神经网络的16纳米训练芯片Gaudi。高迪是哈瓦那继2018年第四季度推出戈雅推理芯片后,第二次尝试进入人工智能市场。哈瓦那声称,它已经将戈雅的产品运送给了20个精选客户。

Gaudi基于与Goya推理加速器相同的基本架构,并使用8个Tensor Processor Cores (tpc),每个tpc都有专用的片上内存、GEMM数学引擎和第4代PCIe(图1)。Goya专注于整数计算,而Gaudi支持训练所需的浮点格式,并集成了32 GB高带宽内存(HBM2)以实现大型芯片集群。此外,它还具有业界首个在芯片上通过融合以太网(RoCE)实现远程直接内存访问(RDMA)的功能人工智能芯片,它提供10x100Gb或20x50Gb的通信链路,以支持扩展到数千个加速器。

在软件方面,高迪配备了哈瓦那的人工智能软件栈,即SynapseAI,它包括图形编译器、运行时、调试器、深度学习库和驱动程序。目前,Habana支持TensorFlow来构建模型,但也计划增加对PyTorch和其他机器学习框架的支持。

图1:哈瓦那实验室高迪处理器的高级架构

哈瓦那实验室高迪处理器的高层架构

产品:

虽然哈瓦那只提供一种基于戈迪的产品,即PCIe加速卡,但它计划提供三种高迪外形。

  • HL-200—200瓦PCIe卡,支持8个100Gb以太网端口。
  • HL-205 -一个300瓦的mezz卡兼容加速模块,具有OCP(开放计算项目)加速模块(OAM)规范,支持10个100Gb以太网端口或20个50Gb以太网端口。这种OCP模块设计是由Facebook首创的,一些芯片供应商(不包括NVIDIA)计划支持它。
  • 哈瓦那还推出了名为HLS-1的8高迪芯片系统,其中包括8个HL-205 mezz卡,带有用于外部主机连接的PCIe连接器和24个100Gbps以太网端口,用于连接标准19英寸机架中的现成以太网交换机(图2)。

该公司正在测试第一块硅,并预计到2019年底,所有三款高迪产品都将获得样品,预计将于2020年年中开始量产。

展品2:哈瓦那实验室HLS-1系统,它结合了八个高迪加速器卡

哈瓦那实验室HLS-1系统,它结合了八个高迪加速器卡

评价:

多年来,NVIDIA的gpu一直主导着云数据中心人工智能培训市场,许多客户现在认为NVIDIA已经锁定了他们的供应商。哈瓦那实验室(Habana Labs)是试图颠覆这一市场的少数初创企业之一,并声称其高迪芯片的性能已经超过了英伟达(NVIDIA)的特斯拉V100。

例如,在流行的ResNet50 CNN图像识别测试中,Habana声称高迪每秒超过1650张图像(IPS),批量大小为64,而NVIDIA的特斯拉V100每秒超过1360张IPS,批量大小未指定。此外,该公司声称高迪在运行基准测试时仅使用140瓦的功率,约为V100的一半。

除了原始性能,人工智能训练处理器的一个重要特征是可扩展性。人工智能加速器在大型训练农场中被多次使用,许多设备合作训练同一个神经网络。哈瓦那提供集成的基于标准的以太网连接,它声称可以无限扩展。这将使客户从NVIDIA的专有软件和接口中解脱出来。哈瓦那也是第一家宣布为Facebook的OCP外形和Glow软件提供硬件的供应商。

需求更强大人工智能功能正在创建一个高度竞争的市场,在这个市场中,灵活的执行几乎与架构设计一样重要。英伟达已经证明了自己是一个敏捷的创新者和一个强大的竞争对手,凭借其完善的CUDA软件生态系统,它不太可能在短期内放弃其市场主导地位。它的Volta AI芯片大约在两年前推出,Volta的继任者可能会在今年晚些时候宣布。因此,哈瓦那宣称的性能优势可能是短暂的。此外,由于Facebook与其他几家加速器芯片初创企业合作,当然,哈瓦那不能保证会收到这家社交媒体巨头的大订单。

然而,如果其技术如承诺的那样,英特尔支持的哈瓦那可能会成为英伟达在人工智能培训市场的主要挑战者之一。由于它不受专有软件和接口的限制,而且价格可能要低得多,它应该会吸引那些目前购买昂贵的英伟达gpu、急于寻找替代供应商的云数据中心客户。