露出 从芯片架构到算力单位,云天励飞“算力积木”展现国产芯片自研新打破

发布日期:2024-09-22 13:26    点击次数:149

露出 从芯片架构到算力单位,云天励飞“算力积木”展现国产芯片自研新打破

露出

2024宇宙AI芯片峰会(GACS 2024)近期在北京举行。本届峰会以「智算纪元 共筑芯路」为主题,全面展示AI芯片产业在算力、集合、存储、软件、系统及愚弄方面的前沿时代、最新效果与落地程度。

淫乱电影

云天励飞副总裁、芯片居品线总司理李爱军受邀干与峰会,并在大会上先容了“算力积木”AI芯片架构。

    

李爱军在演讲中提到,大模子的落地给边际AI芯片带来全新挑战。

场景具有丰富性和碎屑性的秉性,用于边际的大模子的参数目从1.8B到13B不等,不同场景愚弄对算力、内存、带宽的条目也不尽疏导。因此,边际AI芯片需要有很强的活泼性和膨大性,以骄矜不同大模子落地不同场景的需求。

在此布景下,云天励飞提议了“算力积木”AI芯片架构,让芯片粗略像搭积木相似活泼组建、活泼膨大。

客岁底云天励飞负责发布的DeepEdge10系列芯片便是承袭“算力积木”架构野心的。

DeepEdge10系列芯片基于一个法式化的大模子估计单位打造,可达成1.8B大模子的及时高效推理。通过D2D Chiplet时代、C2C Mesh时代和C2C Mes Torus时代,云天励飞将法式估计单位像搭积木相似,封装成不同算力的芯片,可达成7B、14B、130B等不同参数目大模子在边际端的高效推理。

    

在法式化算力单位方面,云天励飞也作念了好多时代上的改动,以达成大模子在边际端的高效推理。

一是野心了近存估计架构,可达成Transformer估计的超低延时。通过可编程路由引擎,不错达成高效散播式的并行估计。

二是通过自研的多Router协同机制,不错灵验地提魁岸模子的参数数据反馈速率,骄矜高效推理的需求。

三是在C2C Mesh Torus结构上,通过自顺应Router结构,减少数据搬运次数,减少估计对带宽的需求。

通过上述时代改动,云天励飞达成了8×16个法式“算力积木”单位的Mesh Torus架构互联,可提供2048Tops调节管千里着从容能算力、512GB调节寻址内存容量、3840GB/s调节调换内存带宽。

改日,云天励飞还会推出基于Mesh Torus架构的大模子边际推理一体机:IPU X6000-Mesh 4U Server,以岑岭值算力与凸起的能效比撑捏大模子的单机部署,包括7B、70B、MoE等主流大模子的边际侧推理部署。

云天励飞一直坚捏走芯片自主研发门道,但愿粗略通过架构改动,在国产工艺上达成芯片性能的打破,为行业带来更高性价比的居品。