您的位置:
首页
>
中文期刊论文
>
详情页
Direct xPU:一种新型节点间通信优化的分布式异构计算架构
- 作 者:
-
李仁刚;
王彦伟;
郝锐;
肖麟阁;
杨乐;
杨广文;
阚宏伟;
- 作者机构:
-
清华大学计算机科学与技术系;
- 关键词:
-
RDMA;
FPGA;
节点间通信;
GPU;
零拷贝;
- 期刊名称:
- 计算机研究与发展
- i s s n:
- 1000-1239
- 年卷期:
-
2024 年
61 卷
006 期
- 页 码:
- 1388-1400
- 摘 要:
-
人工智能大模型应用的爆发式增长,使得难以依靠单一节点、单一类型的算力实现应用的规模部署,分布式异构计算成为主流选择,而节点间通信成为大模型训练或推理过程中的主要瓶颈之一.目前,主要由GPU,FPGA等头部芯片厂商所主导的各种计算架构的节点间通信方案还存在一些问题.一方面,为了追求极致的节点间通信性能,一部分架构选择使用协议简单而可扩展性差的点对点传输方案.另一方面,传统的异构计算引擎(例如GPU)虽然在内存、计算管线等算力要素方面独立于CPU,但在通信要素方面却缺少专属的网络通信设备,需要完全或部分借助于CPU通过PCIe等物理链路来处理异构计算引擎与共享网络通信设备之间的通信.所实现的Direct xPU分布式异构计算架构,使得异构计算引擎在算力要素和通信要素两方面均具有独立的、专属的设备,实现了数据的零拷贝,并进一步消除了节点间通信过程中处理跨芯片传输数据所带来的能耗和延迟.测试结果表明,Direct xPU取得了与追求极致的节点间通信性能的计算架构相当的通信延迟,带宽接近物理通信带宽的上限.
相关作者
载入中,请稍后...
相关机构
载入中,请稍后...