新闻动态

15VIP太阳集团/集成电路高精尖创新中心共3篇论文入选第52届国际计算机体系结构研讨会(ISCA)

6月21日至25日,第52届国际计算机体系结构研讨会(ISCA 2025)在日本东京召开。在本次大会上,来自全球学术界与产业界的专家分享了计算机体系结构及相关领域的最新研究成果,讨论了体系结构未来发展的挑战与方向。15VIP太阳集团的相关师生现场参加了本次大会,进行了成果展示、汇报与深入交流。在本次大会上,15VIP太阳集团/集成电路高精尖创新中心共3篇论文入选,入选论文具体介绍如下:

1.面向边缘侧LLM推理场景的DRAM近存计算架构设计

为加速边缘侧大语言模型推理,现有架构设计采用基于中央处理器(GPU、NPU等)与DRAM近存计算相结合的异构架构,对计算密集和访存密集的算子同时进行加速。然而,虽然现有DRAM近存计算架构可提供更高带宽,但将计算逻辑嵌入DRAM芯片的架构设计限制了其可提供的算力,导致其难以充分加速边缘侧推理计算。为缓解这一问题,孙广宇团队基于混合键合(Hybrid Bonding)这一新兴工艺,研发了面向边缘侧的LLM推理加速架构H2-LLM。H2-LLM提出了一套通用的近存计算架构模板,并抽象出架构设计空间,以协调混合键合工艺所固有的算力与带宽之间的权衡。基于这一架构模板,提出"以数据为中心"的数据流抽象,以充分利用异构硬件资源。在软硬件抽象的基础上,进一步提出了设计空间探索框架,为不同场景进行自动化设计寻优。相对于基线DRAM近存架构设计,H2-LLM可获得2.72倍的性能提升和1.48倍的能效提升。该工作以《H2-LLM:Hardware-Dataflow Co-Exploration for Heterogeneous Hybrid-Bonding-based Low-Batch LLM Inference》为题发表(该论文获得ISCA最佳论文奖,为中国大陆首次获得该奖项。博士生李聪为第一作者,孙广宇副教授和上海交通大学张宸助理教授为共同通讯作者)。

李聪同学在ISCA会议现场做论文报告

2.缓解高性能存算一体芯片IR-drop问题的软硬件协同设计

随着存算一体(Processing-In-Memory, PIM)芯片性能的持续攀升,供电电压降(IR-drop)问题日益成为制约其性能、能效与可靠性的关键瓶颈,而传统电路级优化方法往往需在功耗、性能或面积上做出妥协,难以实现系统化解决。针对这一挑战,研究团队创新性地提出了AIM软硬件协同设计。AIM首创性地建立了量化工作负载与IR-drop关联的关键参数HR,开发了基于正则化与权重优化的算法以降低权重HR值,设计了动态反馈系统实现电压/频率的实时调节以应对IR-drop波动,并通过HR感知的任务映射机制实现了跨层协同优化。这一系列软硬件协同创新技术有效缓解了高性能PIM芯片的IR-drop问题,同时显著提升了芯片性能与能效表现。基于一款256 TOPS PIM芯片的后仿真验证数据表明,AIM能够将IR-drop大幅降低69.2%,并同步实现能效提升2.29倍或性能增益15.2%。该工作以《AIM: Software and Hardware Co-design for Architecture-level IR-drop Mitigation in High-performance PIM》为题发表(博士生张远鹏为第一作者、孙广宇副教授为通讯作者)。

张远鹏同学在ISCA会议现场做论文报告

3.针对偏微分方程求解的定制加速器架构

偏微分方程是众多科学问题的核心,其求解通常依赖数值方法,将方程转化为大规模线性方程组,并通过迭代方法求解。其中,稀疏三角求解(SpTRSV)因其强数据依赖性成为求解器的主要性能瓶颈。然而,现有研究难以有效发掘复杂依赖模式中的并行性和数据局部性,制约了硬件性能的发挥。本工作提出了一种针对偏微分方程求解的定制加速器架构。该架构充分利用由模板计算生成的矩阵结构化稀疏特性,通过数据流架构设计实现高效的流水线并行,大幅降低数据依赖管理的开销,取得计算与通信的充分重叠。实验结果表明,该加速器相比CPU和GPU取得平均61倍和8倍的加速。该工作以《Telos: A Dataflow Accelerator for Sparse Triangular Solver of Partial Differential Equations》为题发表(博士生郝晓辰和罗昊为共同第一作者,梁云教授为通讯作者)。

郝晓辰同学在ISCA会议现场做论文报告

ISCA会议背景简介

国际计算机体系结构研讨会(International Symposium on Computer Architecture, ISCA)创立于1973年,是计算机体系结构领域历史最悠久、影响力最顶尖的学术会议之一,与HPCA、MICRO、ASPLOS并称"体系结构四大会"。该会议由ACM SIGARCH和IEEE TCCA联合主办,被中国计算机学会(CCF)列为A类推荐,会议论文的平均录取率在17%左右。历经52届发展,ISCA议题深刻映射技术演进脉络:从多处理器互连、并行计算到移动功耗优化,再到聚焦异构加速、存算一体、AI硬件等新兴方向,近年更延伸至量子-经典协同计算等前沿领域。国内科研团队和相关企业的参与度历经从零星突破到稳定贡献的跨越式发展,印证了中国在全球计算机体系结构生态中话语权提升。