VLDB24——OLAP on Modern Chiplet-Based Processors走马观花阅读

TUM数据库组在VLDB2024发的Paper

主要分析Chiplet CPU对OLAP数据库的影响

什么是Chiplet CPU

Chiplet CPU是一种将多个小型芯片(称为chiplets)组合在一起构建的中央处理器(CPU)。这种设计方式旨在提高芯片的性能和灵活性,同时降低制造复杂度和成本。与传统的单一大型芯片不同,Chiplet CPU将处理器的不同部分分解成多个chiplet,然后通过高速互连将这些chiplet集成在一起,从而形成一个完整的处理器系统。

以下是Chiplet CPU的主要特点和优势:

  1. 模块化设计:通过将不同功能分割为独立的chiplet模块,可以将CPU、GPU、I/O控制器、内存控制器等不同功能集成在同一封装中。这种设计使得各个模块可以根据需要单独优化和升级。

  2. 制造成本更低:传统的单一芯片可能会面临更高的缺陷率,因为较大的芯片面积会增加制造难度。通过使用较小的chiplet,制造商可以使用成熟的工艺节点生产,并将不同chiplet组合,降低了成本。

  3. 性能提升:由于不同chiplet可以使用不同工艺制造,可以在高性能的计算核心上使用先进的工艺节点,而其他部分可以使用较成熟的工艺节点,这样既提高了性能,又节省了资源。

  4. 可扩展性:模块化设计可以使得不同chiplet组合灵活,从而为不同的产品系列定制处理器。例如,AMD的Ryzen处理器和EPYC服务器处理器都使用了chiplet设计,以更灵活地应对不同的市场需求。

  5. 减少功耗:chiplet之间的通信相比于单一芯片中的远距离连接有时可以更加节能,因为可以更好地优化连接路径,从而在保持高性能的同时控制功耗。

总之,Chiplet CPU是一种通过分离处理器组件以便于灵活设计、生产和扩展的创新技术,近年来在高性能计算、数据中心和桌面处理器领域得到了广泛应用。

俗称大小核😆

问题是 “How to deploy query engines efficiently on chiplet-based CPUs?”

虽然该研究问题针对OLAP,但对NoSQL和图处理也有效

一篇实验为主的文章

涉及技术:NUMA,UCIe(Universal Chiplet Interconnect Express), HBM(High Band-width Memory)

论文下载地址

实验

测试了三种架构:AMD EPYC Milan,Intel Sapphire Rapids(第 4 代 Intel Xeon 可扩展处理器), ARM Gravition

“各个芯片都有各个芯片的特性(延迟,带宽,缓存,存储速度)”

comment: 不测下我大苹果M3么😂这帮人只想着测试服务器

image-20241116142858563

实验结论

可以对软件进行Chiplet-aware优化,以在Chiplet芯片获得最好效果😅

“Chiplet-aware”是一种专门针对chiplet设计优化的硬件和软件架构理念。这个词指的是硬件系统和软件堆栈能够意识到并适应chiplet的存在和结构特性,进而优化资源的分配和管理。由于chiplet架构的特点,传统的处理器设计和优化方法不能完全适用,因此“chiplet-aware”架构应运而生,目的是充分发挥chiplet CPU的性能优势。

具体来说,chiplet-aware的理解可以从以下几方面来看:

  1. 资源管理和调度的优化:由于chiplet结构是由多个独立的chiplet通过互连总线连接在一起,处理器的各个核心、缓存、I/O单元可能位于不同的chiplet中。chiplet-aware的资源管理可以识别这些模块的物理位置,通过优化任务调度来减少跨chiplet通信带来的延迟,提高效率。

  2. 互连管理的优化:chiplet之间依赖高速互连通道进行数据交换和通信。chiplet-aware的架构会考虑到互连的带宽和延迟特性,智能地优化数据传输路径,减少瓶颈,最大限度地利用互连带宽,确保不同chiplet之间的高效协同。

  3. 功耗和温度管理:chiplet结构通常在相对紧凑的封装内运行,可能会导致功耗集中、温度上升的情况。chiplet-aware的管理系统会根据不同chiplet的功耗特性和温度分布,调整工作负载和冷却策略,以避免局部过热并提升整体功耗效率。

  4. 内存和缓存优化:chiplet架构中,某些chiplet可能集成了大容量的共享缓存或内存控制器,chiplet-aware的内存管理可以识别这些存储资源的位置和性能特性,从而在软件层面上优化内存访问模式,减少延迟并提升内存访问效率。

  5. 软件和编译器支持:chiplet-aware的编译器和操作系统可以根据芯片结构动态分配任务。例如,调度高负载任务到更靠近缓存的计算核心上,或者在并行计算时减少跨chiplet的数据共享。这样的软件支持能够更有效地利用chiplet CPU的结构特性。

总结:chiplet-aware是一种专门为chiplet架构设计的优化思路,旨在通过硬件和软件的协调提升性能、优化功耗、改善资源利用率。随着chiplet架构的普及,chiplet-aware的设计和支持也越来越重要,为高效利用chiplet CPU带来了新的机会。

开启NUMA也可以获得更好效果

封装方案也会影响OLAP服务的性能,WICP方案对单机服务器最不利(因为其核心间需要通信),而随着机器数量的增加,性能会逐渐向WIM靠拢(但貌似最后还是超越不了😅)

WIM(Wafer Integration Module)和WICP(Wafer Integrated Chiplet Package)是先进的半导体封装技术,主要应用于chiplet架构中,用于将多个chiplet模块集成在一个封装或硅片上。它们通过不同的技术方法实现更高密度的芯片整合和更高效的芯片间互连,从而提升系统的整体性能和功耗效率。

1. WIM (Wafer Integration Module)

  • 定义:WIM是一种将多个不同功能的chiplet集成在同一晶圆上的技术。这些chiplet可以通过硅中介层(例如硅桥接)互连,形成一个高度集成的芯片模块。WIM技术可以在单一晶圆上实现更高的功能密度,并显著降低信号传输延迟。
  • 优势
    • 提高芯片整合度,缩短不同chiplet间的距离。
    • 通过晶圆级的处理技术,可以降低制造成本。
    • 有助于芯片间的高带宽、低延迟通信,适用于需要高数据吞吐量的计算场景。
  • 应用:WIM通常用于高性能计算(HPC)和数据中心处理器等需要高带宽和低延迟的应用。

2. WICP (Wafer Integrated Chiplet Package)

  • 定义:WICP是一种在晶圆级封装(Wafer-Level Packaging)技术上扩展的芯片封装方案。它将多个独立制造的chiplet在封装阶段集成在一起,通过晶圆级封装技术进行互连和封装。与WIM不同,WICP更侧重于通过封装技术将不同的chiplet封装在一个模块中。
  • 优势
    • 提高封装灵活性,可以实现跨不同制程的chiplet集成。
    • 降低封装复杂度,并可以通过层叠设计提升封装密度。
    • 有助于实现多样化的芯片组合,适合包括CPU、GPU、I/O模块等在内的多芯片系统。
  • 应用:WICP广泛应用于消费电子、物联网设备等场景中,也在高性能应用中逐渐普及。

总结

WIM和WICP都是适应chiplet架构发展的重要封装技术,但它们的实现方式和应用场景有所不同:

  • WIM偏向于在晶圆级别上集成和连接chiplet,适用于高性能和高带宽应用。
  • WICP则更关注在封装级别上实现chiplet的集成,提供更灵活的组合和更高的制造良率。

这些技术为chiplet CPU的广泛应用提供了支撑,有望在高性能计算、人工智能等领域带来突破。

补充

Chiplet方案可以应对Dennard scaling失效带来的影响,通过允许独立扩展不同的小芯片类型(而非通用芯片),去处理不同类型的任务。

Dennard Scaling(德纳德缩放)是一项关于半导体微缩的理论,它描述了在半导体制程不断缩小的过程中,功率密度可以保持恒定,同时芯片的性能也会提升。这一理论由IBM的Robert Dennard和他的团队在1974年提出,被认为是摩尔定律的一个重要补充。根据Dennard Scaling的原则,当晶体管尺寸缩小时,电压和电流也可以相应减少,从而在同样的功耗下运行更多的晶体管,提高处理器的速度和效率。

Dennard Scaling的关键原则

Dennard Scaling的主要思想是,当半导体工艺缩小时:

  1. 晶体管面积缩小:随着制程节点的缩小,每个晶体管占用的面积减少。
  2. 电压和电流缩小:理论上可以将电压和电流也缩小,使得每个晶体管的功耗降低。
  3. 频率提高:在功率密度不变的情况下,可以提升芯片的频率,使得芯片的整体计算能力提高。

简单来说,Dennard Scaling理论表明,如果缩小晶体管尺寸并降低电压和电流,芯片可以在不增加功耗的情况下提高性能。

Dennard Scaling的失效

然而,自2000年代中期以来,Dennard Scaling逐渐失效,这主要是因为:

  1. 电流泄漏增加:当晶体管变得足够小之后,电流泄漏现象变得更加显著,导致难以继续降低电压。
  2. 散热限制:缩小尺寸带来了更高的功率密度,导致芯片产生的热量增加,散热变得更加困难。
  3. 物理极限:在纳米级别,物理学定律(如量子隧穿效应)开始限制进一步缩小晶体管尺寸。

随着Dennard Scaling的失效,简单地依赖工艺缩小来提升性能变得不可行。因此,业界逐渐转向多核处理器、chiplet架构、异构计算等方式,以便在功耗和散热的限制下继续提升计算能力。

影响与替代

Dennard Scaling的失效对半导体行业产生了深远的影响。如今,摩尔定律虽仍然存在,但速度放缓,因此芯片公司在追求更高性能时需要更多的创新设计,例如:

  • 多核架构:通过增加处理器核心数量来提升并行计算能力。
  • 异构计算:使用CPU、GPU、专用加速器等不同计算单元分担工作负载,提高效率。
  • chiplet设计:将不同功能的模块组合在同一封装中,提高芯片的灵活性和效率。

总结来说,Dennard Scaling是一种曾帮助推动芯片性能增长的半导体微缩理论,但随着工艺物理极限的到来,该理论逐渐失效。如今,芯片行业正在通过新的架构设计和封装技术,以在功耗和散热限制下继续推动性能增长。

结论

实验内容有点枯燥,但从软件优化的角度来说还是有一定可取性的

抛开学术写作的那部分不谈,文章的内容其实很适合数码博主做视频的😂谈谈大小核对软件性能的影响