云豹智能与燧原科技联合开发大规模高性能AI算力平台
作者 | 燧原科技Enflame2022-01-07

近日,云豹智能与燧原科技达成战略合作,依托双方各自在DPU (Data Processing Unit) 和AI计算领域的软硬件优势,联合开发大规模高性能AI算力平台,为云端AI计算提供更高效的解决方案。

云豹智能创始人兼CEO 萧启阳博士表示:“在数据中心领域,DPU正推动着计算基础架构的变革,以提供更高效的数据处理和计算解决方案。DPU与AI加速设备更高效地互通互动,推动AI应用的发展,让AI计算更高效、更节能,这是我们推出DataDirectPath的出发点。我们相信DataDirectPath相关的技术必将为数据中心计算资源池化提供重要的基础。我们很高兴与业界AI算力领域领先者燧原科技合作,共同为业界提供创新的DataDirectPath解决方案,为客户提供更先进的AI解决方案。”

燧原科技创始人兼COO 张亚林表示:“数据中心和云计算是国家新基建的算力基础设施,是企业数字化转型的重要保障。在智能数据中心的核心业务中,海量数据和计算能力已成为核心关键。基于云豹智能和燧原科技在数据处理和算力产品的领先优势,将进一步促进数据中心的变革。通过创新性的DataDirectPath技术实现AI处理器之间以及AI处理器与存储之间的直接通信,对于提升AI计算规模和训练效率至关重要。我们很高兴与DPU头部厂商云豹智能一起,为业界带来领先的大规模高性能AI算力平台。”

AI算力云化是未来AI发展的趋势之一

高性能数据处理能力变得尤其重要

据艾瑞预测,2020年,中国人工智能基础设施市场规模为497亿元,为人工智能产业总规模的33%,总体呈现持续增长的走势,到2025年,中国人工智能基础设施市场规模将达到2475亿元。

算力作为人工智能产业发展的三大要素之一,AI芯片是其载体。AI芯片作为人工智能产业的关键硬件,是AI加速服务器中用于AI训练与推理的核心计算引擎,被广泛应用于人工智能、云计算、数据中心、边缘计算、移动终端等领域。当前,我国的AI芯片行业仍处于起步阶段,市场空间有待探索与开拓。据艾瑞统计与预测,2020年我国AI芯片市场规模为197亿元,到2025年,我国AI芯片市场规模将达到1385亿元,2021-2025年的相关CAGR达47%,市场整体增速较快。

但对于很多企业来说,独立建设自己的AI硬件集群一次性投入和后续运维的成本非常高,建设周期长且利用率低。而AI算力云化,以按需分配的方式提供AI算力,提高效能的同时,也可以降低成本。因此,AI算力云化是未来AI发展的趋势之一。

AI算力云化不仅需要高性能的AI计算能力,也需要高性能的数据处理能力,包括AI芯片之间的数据通信,AI芯片获取存储数据等。随着AI数据爆发式增长,模型迭代速度更快,模型规模越来越大,数据处理能力的要求也越来越高。

AI芯片厂商、GPU厂商、AI算法开发商都在不断探索硬件和软件的解决方案。主流的GPU或AI芯片厂商提供自己私有的解决方案,比如NVIDIA的NVLink、GPUDirect和相应NCCL软件,但AI市场和用户期待着一个开放的技术和相应高性能解决方案。

云豹智能与燧原科技联合推出大规模高性能AI算力平台解决方案

云豹智能作为DPU芯片的领导者,正在积极地帮助业界解决问题。随着数据中心基础架构逐渐演进到以DPU为核心,DPU将决定数据中心的互联互通方式。通过DataDirectPath(数据直通技术),DPU将为AI大规模训练提供一个更高效的通信方式。

目前,云豹智能与燧原科技达成战略合作,共同研发和提供大规模高性能AI算力平台解决方案。双方创新性地提出了DataDirectPath技术:该技术用于高性能分布式数据通信,基于DPU的高灵活性和高性能的特点,实现与云燧T20之间以及与存储之间的高性能直接通信,提升AI训练效率的同时,也降低了训练成本。DataDirectPath包括:DataDirectPath RDMA和DataDirectPath Storage。DataDirectPath RDMA用于AI加速芯片之间的数据通信,而DataDirectPath Storage用于AI加速芯片与存储器之间的高速数据读写。

相对于一些GPU厂商推出的私有解决方案,DataDirectPath具有开放性、高兼容性和高灵活性等特点。

1

云豹智能与燧原科技合作,基于云豹云霄DPU和燧原科技云燧T20率先推出了DataDirectPath Storage解决方案,为AI训练储存访问提供更高效的解决方案。在传统解决方案中,云燧T20访问存储时,需要将数据先搬移到系统内存,再由系统内存搬移到目标设备。在创新的DataDirectPath Storage解决方案中,基于DataDirectPath Storage技术,云燧T20通过DPU直接获得数据,从而绕过系统内存和CPU,让数据访问速度更快,访问延迟更短,系统开销更小。DataDirectPath Storage不仅支持数据通道的Bypass CPU, 也支持控制通道的Bypass CPU,让控制路径也更高效,大大降低CPU的开销。

DataDirectPath Storage解决方案具有以下优势:

  • 高性能、低延迟、低开销:DataDirectPath Storage同时支持数据通道和控制通道Bypass CPU,降低CPU开销、提高AI加速芯片访问性能并降低通信时延,从而帮助用户构建更大规模、更高性价比和更高能效的AI计算平台。

  • 更高兼容性:用户端文件系统与后端实现解耦,通过DPU兼容多种存储系统和协议。

  • 互联方案更灵活:DPU和AI加速芯片通信支持多种协议,包括Virtio、RDMA和NVMe等,从而支持更灵活的互联方案。

云豹智能和燧原科技将基于双方技术优势和技术互补,持续发挥协同作用,为云端AI计算降本增效,为行业提供更具创新力和价值的应用解决方案,为国内芯片行业发展进一步夯实大规模落地基础。


热门文章
【今日物语】算力时代为数字产业化和产业数字化开辟了更大的发展空间,算力和算法以及数据的结合,发挥人工智能在企业生产管理全产业链的作用,实现以高质量发展为目标的数字化转型,同时也促进节能增效。——中国工
2022-01-07