SRAM的历史可以追溯到上世纪60年代。1963年,Robert Norman在Fairchild半导体公司首次提出了静态RAM的设计思路;到了60年代末,双极型SRAM已开始用于高速暂存器和缓存。1969年,Intel推出的第一款产品3101正是一颗SRAM芯片,用于替代磁芯存储模块。此后数十年,SRAM主要承担CPU中的缓存与片上存储角色。而在如今的大模型推理阶段,模型需要反复读取权重和中间缓存,SRAM的这些特性正好能有效缩短数据存取路径,从而释放GPU的算力潜力。为了真正解决“GPU不够用”的难题,基于SRAM的硬件与软件协同方案已经形成三条清晰的技术路线。它们的目标一致——缩短数据移动距离,但在工程难度和适用场景上各有侧重。
第一条:从编译器层重排数据流
不改变硬件结构,而是通过编译器优化,将频繁访问的数据块尽量调度到片上SRAM中。这种方式成本低、通用性强,适合已有GPU或NPU架构的场景,但对算法本身的数据局部性要求较高。
第二条:从晶圆层扩大片上存储规模
通过先进封装或更密的工艺,在处理器内部集成更大容量的SRAM。例如部分AI加速芯片直接内置数十MB甚至上百MB的SRAM,从而减少对HBM或DDR的依赖。这条路线性能提升明显,但会占用更大的芯片面积,对功耗和良率也带来挑战。
第三条:从晶体管层推进存算融合
将计算逻辑嵌入SRAM阵列内部,实现数据存储与部分运算的合并。这是最激进的路线,能极大降低数据搬运开销,尤其适合矩阵乘法、向量点积等大模型中的常见操作。不过其设计复杂度高,当前主要处于学术界和少数头部企业的原型阶段。