HBM은 High Bandwidth Memory의 약자로, 3D로 적층한 DRAM을 TSV(실리콘 관통 비아)로 수직 연결해 매우 넓은 인터페이스와 낮은 전력으로 초고대역폭을 제공하는 메모리 규격입니다.
이 메모리는 GPU·AI 가속기와 같은 프로세서 옆에 2.5D 인터포저로 직접 배치되어 신호 이동 거리를 단축하고 대역폭 밀도와 효율을 크게 높입니다.
핵심 정의
HBM은 JEDEC가 표준화한 3D 적층식 동기식 DRAM 인터페이스로, 기존 평면형 DRAM과 달리 칩을 수직으로 쌓아 초광대역 데이터를 병렬로 처리하도록 설계되었습니다.
TSV로 연결된 다이 스택과 기저 로직 다이가 하나의 패키지로 동작하며, 넓은 병렬 버스와 낮은 클럭으로 높은 처리량을 달성합니다.
이 규격은 고성능 컴퓨팅(HPC), 그래픽 처리, 인공지능 훈련·추론 등 고대역폭·저지연이 필요한 시스템을 주요 대상으로 합니다.
HBM은 전통적 의미의 새로운 메모리 종류라기보다 DRAM을 패키징·연결 방식으로 혁신해 성능·효율을 끌어올린 구현 기술에 가깝습니다.
왜 필요한가
AI·HPC 워크로드는 대량의 파라미터와 텐서를 초당 테라바이트 수준으로 주고받아야 하며, 메모리 대역폭 병목이 성능을 지배합니다.
HBM은 메모리를 프로세서에 물리적으로 가깝게 두고 배선을 짧게 만들어 지연을 줄이며, 낮은 동작 전압과 클럭으로 전력 효율을 개선합니다.
넓은 인터페이스를 활용하는 접근은 높은 클럭에 의존하는 GDDR과 대비되어, 동일 또는 더 높은 처리량을 더 낮은 전력으로 달성하는 이점을 제공합니다.
결과적으로 데이터 이동 비용을 줄여 모델 학습·추론 처리량을 높이고, 시스템 총소비전력(TDP) 관리에도 유리합니다.
구조와 작동 원리
HBM 스택은 여러 개의 DRAM 다이를 수직으로 쌓고 TSV로 전기적으로 관통 연결한 뒤, 맨 아래의 로직 다이를 통해 인터페이스와 제어를 담당합니다.
이 스택은 실리콘 인터포저 위에서 GPU·AI 가속기 다이와 병치되는 2.5D 패키징 방식으로, 초미세 배선으로 수천 개의 신호를 짧은 거리로 연결합니다.
HBM3 기준 한 스택은 16개의 64비트 채널(총 1024비트)을 제공해 낮은 클럭에서도 매우 넓은 병렬 전송이 가능합니다.
대역폭은 데이터레이트와 인터페이스 폭의 곱으로 계산되며, 공식은 $$ \text{Bandwidth} = \text{Data Rate} \times \text{Interface Width} \div 8 $$ 입니다.
예를 들어 HBM3에서 6.4 Gbps×1024비트를 적용하면 스택당 이론상 약 819 GB/s가 산출됩니다.
세대별 발전
초기 HBM은 핀당 약 1 Gbps 수준으로 표준화되었고, 다이 적층과 넓은 버스로 GDDR 대비 새로운 확장 경로를 제시했습니다.
HBM2는 2016년에 등장해 핀당 최대 2.4 Gbps로 향상되어 AI·HPC용 가속기의 채택을 넓혔습니다.
HBM3는 2023년 규격으로 정리되며 핀당 6.4 Gbps까지 성능을 끌어올리고 전력 효율과 RAS 기능을 강화했습니다.
HBM3 세대는 스택당 최대 64 GB(32 Gb 다이×16-High) 구현이 가능해 메모리 용량 밀도도 크게 증가했습니다.
차기 HBM4는 2026년경 표준 완성을 목표로 핀당 최대 9.6 Gbps로의 추가 향상이 예상됩니다.
HBM vs GDDR 비교
| 구분 | HBM | GDDR |
|---|---|---|
| 구조 | TSV 기반 3D 적층, 넓은 병렬 인터페이스[1][6] | 단일 패키지 다수 배치, 높은 클럭 중심 설계[7] |
| 인터페이스 폭 | 스택당 1024비트(16×64비트 채널)[6][8] | GPU 외곽 다수 칩 합산 수백 비트 수준[7] |
| 데이터레이트 | 낮은 클럭에서 높은 총대역폭 설계[4] | 매우 높은 클럭(예: GDDR6/6X)로 대역폭 확보[7] |
| 대역폭 | 스택당 최대 819 GB/s 수준(HBM3)[9][8] | 전체 구성 합산으로 수백 GB/s~1 TB/s대 구성[7] |
| 전력 효율 | 대역폭/와트가 우수함[4][7] | 높은 클럭으로 전력 소모 증가 경향[7] |
| 크기/집적 | 작은 풋프린트로 고대역폭 밀도 유리[4] | 보드 면적 차지 크며 배선 길이 증가[7] |
| 비용/복잡도 | 패키징·인터포저로 비용·수율 난도↑[4][10] | 부품 단가 유리, 대량 적용 쉬움[7][11] |
| 용도 | AI/HPC/데이터센터·전문 GPU/가속기[2][6] | 게이밍·메인스트림 GPU 전반[7] |
장점과 한계
HBM의 가장 큰 장점은 동일 면적 대비 압도적인 대역폭 밀도와 전력 효율로, 연산 유닛의 메모리 병목을 크게 완화한다는 점입니다.
인터포저 기반의 짧은 배선과 낮은 클럭 운용은 신호 무결성과 지연 측면에서도 이점을 제공합니다.
반면, 실리콘 인터포저와 TSV 적층 공정은 제조 복잡도와 비용을 높이고, 수율 관리와 열·기계적 스트레스에 대한 공정 노하우가 요구됩니다.
보드 설계·패키징 생태계 전반에서의 기술·공급망 성숙도가 채택 속도와 가격에 직접적인 영향을 미칩니다.
활용 분야
AI 대규모 모델 학습·추론과 HPC 수치해석·시뮬레이션 등 메모리 집약형 워크로드에서 채택이 빠르게 확대되었습니다.
데이터센터용 GPU, AI 전용 가속기, 일부 FPGA/DPUs 등과 결합되어 서버급 연산 플랫폼의 처리량을 끌어올립니다.
네트워킹·클라우드 컴퓨팅과 차량용 고성능 컴퓨팅 등에서도 낮은 지연과 높은 대역폭이 요구될 때 유력한 선택지로 검토됩니다.
그래픽·비주얼라이제이션 분야에서도 초고해상도·고프레임 처리에 유리해 전문용 솔루션에서 가치가 큽니다.
성능 수치 한눈에 보기
HBM3의 핀당 최대 속도는 6.4 Gbps로 정의되며, 구조적 넓은 버스 덕분에 스택당 819 GB/s에 도달할 수 있습니다.
이는 동일 클럭을 크게 올리는 대신 인터페이스 폭을 극대화하는 HBM 철학을 잘 보여주며, 전력 대비 처리량 관점에서 실용적입니다.
HBM3의 채널 구성은 16채널·32 의사채널에 달하며, 채널/버스트 구조 개선과 RAS 기능 강화가 함께 도입되었습니다.
HBM3 세대는 스택당 최대 64 GB까지 구현되어 대역폭뿐 아니라 용량 측면에서도 대규모 모델에 적합합니다.
계산 예시로 이해하기
대역폭 계산식은 $$ \text{Bandwidth} = \text{Data Rate} \times \text{Interface Width} \div 8 $$ 로, 비트 단위를 바이트로 환산하는 과정이 포함됩니다.
HBM3의 경우 $$6.4,\text{Gbps} \times 1024,\text{bits} \div 8 = 819,\text{GB/s}$$ 로 스택당 이론 대역폭을 구할 수 있습니다.
여러 스택을 병렬로 배치하면 총 대역폭은 스택 수에 비례해 선형적으로 증가하는 구성이 일반적입니다.
다만 패키지·보드 전력, 발열, 라우팅 한계 등 물리 제약이 실제 구현 상한을 결정합니다.
자주 묻는 질문
HBM은 일반 PC 메모리로 쓸 수 있나요? 주류 소비자 PC·게이밍 그래픽에서는 비용·복잡성 이슈로 GDDR이 주로 쓰이며, HBM은 서버·전문용에 집중됩니다.
HBM 스택이란 무엇인가요? 여러 DRAM 다이를 TSV로 수직 적층하고 로직 다이와 함께 하나의 패키지로 묶은 단위를 말합니다.
HBM3E·HBM4는 무엇이 다른가요? HBM3E는 HBM3의 성능·효율을 개선한 진화형이며, HBM4는 2026년경 핀당 9.6 Gbps 수준을 목표로 차세대 표준이 예고됩니다.
왜 2.5D 인터포저를 쓰나요? 수천 개의 신호선을 미세 피치로 짧게 연결해 넓은 병렬 버스를 구현하고, 신호 무결성과 전력 효율을 동시에 달성하기 위해서입니다.
용어 정리
TSV(Through-Silicon Via): 실리콘 다이를 수직으로 관통하는 금속 비아로, 적층 다이 간 고밀도·고속 연결을 가능하게 합니다.
인터포저(Interposer): 프로세서 다이와 HBM 스택을 같은 기판 위에서 미세 배선으로 연결하는 실리콘 기반 중개 기판입니다.
2.5D 패키징: 단일 다이가 아닌 여러 다이를 인터포저 위에 병치해 고밀도 연결을 구현하는 패키징 방식을 의미합니다.
채널/의사채널: HBM은 다수의 독립 채널을 제공하며, HBM3는 16채널과 32 의사채널 구성으로 병렬 처리 효율을 높입니다.
도입 시 체크포인트
예산과 TCO: 인터포저·적층 공정 비용과 수율 리스크를 감안해 총소유비용 관점에서 타당성을 산정해야 합니다.
전력·발열 예산: 대역폭/와트 이점이 있으나, 시스템 총전력·열 설계를 수반하므로 플랫폼 차원의 공학적 균형이 필요합니다.
성능 요구치: 필요한 총 대역폭과 용량에 맞춰 스택 수, 세대(HBM2E/HBM3 등), 채널 구성, 클럭을 산정해야 합니다.
생태계·공급망: 패키징 파운드리·메모리 벤더·기판 공급망의 리드타임과 안정성을 평가하는 것이 중요합니다.
한 줄 정리
HBM은 3D 적층과 TSV, 2.5D 인터포저를 통해 낮은 클럭에서도 초고대역폭을 실현하여 AI·HPC 시대의 메모리 병목을 푸는 핵심 기술입니다.