电话: 邮箱:
博 学 而 笃 志   切 问 而 近 思 SEEK BROAD KNOWLEDGE · ASK EARNESTLY

走地盘

走地盘

滚球app(中国)官网下载 存储器行业加大对下一代技能“HBM-PNM”的接头力度

发布日期:2026-05-13 12:58 来源:未知 作者:admin 浏览次数:

滚球app(中国)官网下载 存储器行业加大对下一代技能“HBM-PNM”的接头力度

HBM4的推出,逻辑芯片的制造工艺已弃取5纳米或更小的先进工艺,裁汰了PNM技能的实施门槛。

跟着HBM4行将量产,存储器半导体行业正全力进入下一代技能“HBM-PNM”的接头。此举备受眷注,被视为为以“可策动存储器”为中心的新时间作念准备,该时间平直在存储器里面处分策动,突破了以显卡(GPU)为中心的架构的扬弃。

据业内东谈主士11日显现,由三星电子、英伟达、加州大学圣地亚哥分校、哥伦比亚大学和延世大学构成的辘集接头团队最近在arXiv上发表了一篇对于AMMA(多芯片内存中心架构)技能的论文,展示了HBM-PNM技能的可行性。

PNM(近内存处分)技能通过将很是的策动单位摈弃在HBM堆栈的逻辑芯片上,平直在内存掌握履行策动。现存的PIM(内存内处分)款式将策动电路摈弃在存储单位里面,而PNM的上风在于大要在保抓内存容量的同期,竣事更复杂、更高大的策动。

现在,大型谈话模子(LLM)管事的最大瓶颈在于解码阶段的老成力机制。在对长险峻文进行解码老成力时,GPU逾越95%的策启程手处于闲置情状,导致内存带宽确实被十足行使。

即使是Rubin GPU,分析也自满,其策动中枢(占封装面积的67%,功耗的73%)在永劫期驱动的情况下本体行使率仅为4%至5%傍边。这形成了资源铺张,亦然导致功耗加多和发烧问题的主要原因。

跟着HBM4的推出,逻辑芯片的制造工艺已弃取5纳米或更小的先进工艺,裁汰了PNM技能的实施门槛。该接头团队提议的AMMA决策移除了现存GPU的策动芯片,并将16个HBM-PNM立方体以4×4网格结构邻接起来。这使得封装内的内存带宽擢升至44TB/s,约为现存架构的两倍。

在本体接头中,与NVIDIA H100比拟,AMMA架构将老成力蔓延裁汰了15.5倍,能耗裁汰了6.9倍。其速率也比下一代Rubin GPU快1.8到2.5倍,能效提高了2.6到3.1倍。尤其值得一提的是,它在处分百万级(1M Context)的超长险峻文推理和智能体使命负载方面进展出色。

接头团队暗示:“通过这项接头,咱们旨在阐明以内存为中心的架构有后劲成为GPU除外的新式架构,并促进对下一代系统的接头,在这些系统中,滚球app以内存为中心的加快器在异构平台中施展着关节作用。”

在摩尔定律的发展的几十年里,处分器、存储器等组件不停发展,处分器算力、存储器存储量齐得到了大幅擢升。但与之而来的,即是“存储墙”、“带宽墙”、“功耗墙”等问题。由于处分器的峰值算力每两年增长3.1倍,而动态存储器的带宽每两年增长1.4倍,存储器的发展速率远逾期于处分器,进出1.7倍。CPU时钟速率与片外内存和磁盘驱动器I/O速率之间的差距越来越大。比如,动态立时存储器DRAM(Dynamic Random Access Memory)是芯片边界“最大批单一居品”,精密工业制造的王冠之一,被喻为邻接中央处分器(CPU)的“数据高速公路”。其功能是暂存正在驱动的各式设施和数据,是一种易失性存储器,即断电后数据就丢失。DRAM由于其较差的可蔓延性和极高的联想本钱明锐性(每比特本钱),其发展相对较慢,在10nm技能节点就遇到了天花板。

亚搏体育中国一站式服务官网

存储墙导致访存时延高,后果低,存储器的数据探询速率跟不上处分器的数据处分速率,存算性能失配。为了壅塞存储墙,照旧提议了多数的接头使命来优化DRAM架构,上文提到的近存策动即是一种,此外还有存内策动等阶梯。

存内策动是在内存中完成部分策动,在处分器中完成部分策动。相较于内存策动将策动所需的所稀有据放入到内存中,扫数策动由处分器完成,存内策动裁汰了数据在内存与高速缓存,高速缓存与CPU之间出动的能耗,提高内存策动系统的性能。其中枢上风在于高算力、低功耗、低蔓延,主要分为端侧(小算力低功耗)、边侧(中算力及时处分)和云侧(高算力)。典型应用边界包括:结尾及物联网(IoT)场景、边际策动及AI估计场景以及云霄/大范围策动场景。

*声明:本文系原作家创作。著述内容系其个东谈主不雅点,自身转载仅为共享与参议,不代表自身赞赏或招供,如有异议,请关联后台。

思要得到半导体产业的前沿洞见、技能速递、趋势理解滚球app(中国)官网下载,眷注咱们!