반도체 | AI 시대, DRAM은 ^^ / NAND는 단기 ㅠㅠ
출처 : "반도체 | HBM과 AI 시대 메모리" (2023-08-03, 한국투자증권 채민숙, 조수헌)
Summary
1. HBM(High Bandwidth Memory)는 AI 가속기에 사용되는 GPU와 같은 칩셋에 들어감
2. 가트너는 '20~27년 AI 가속기 출하량 CAGR을 20% 정도로 추정
3. 그러나 전체 DRAM에서 수량 기준으로 HBM 비중은 '23년 기준 0.8%, '27년에도 1.4%에 불과
4. HBM이 일반 DRAM 대비 비싼 걸 감안해도 전체 DRAM 매출 대비 비중은 최대 10% 초중반
5. 그러나 HBM도 DRAM 웨이퍼 붙여만드는 거고, AI 서버는 일반 서버 대비 주메모리 더 많이 씀
> AI 발전에 따라 DRAM 전체 사용량도 증가
>> 전공정 투자 필요
* NAND는 주요 데이터센터 업체들의 GPU 위주 CAPEX 집행으로 인해 당분간은 후순위로 밀릴 예정
| DRAM의 구분 : HBM은 DRAM의 어느 범주에 들어가는가?
HBM은 Graphic DDR(GDDR)에 해당됨
DRAM 범주는 Standard / Mobile / Graphics 로 구분
Standard DDR
서버, 클라우드 컴퓨팅, PC, 가전용 등
형태(폼 팩터)는 DIMM(Dual In-line Memory Module), Discrete(단품) 로 나뉨
DIMM은 PCB 위에 여러개의 Discrete DRAM을 부착해 용량을 늘릴 수 있음
Mobile DDR
저전력 특성으로 스마트폰에 사용
Discrete 또는 낸드와 섞어놓은 하나의 패키지로 사용
Graphic DDR(GDDR)
데이터센터 가속, AI 등 매우 높은 처리량이 필요한 영역에 사용
Standard 대비 속도가 빠르고 메모리 대역폭(bandwidth)이 넓음
GDDR과 HBM이 여기에 속함
[참고]
현재 사용되는 DRAM은 SDRAM = Synchnonous(동기식) DRAM에 해당
동기식은 메모리 동작 & CPU 클럭 입력이 동시에 일어나도록 하는 방식
SDRAM은 SDR(Single Data Rate)을 거쳐 DDR(Double Data Rate)으로 발전
DDR은 CPU 클럭 1주기당 2번 데이터를 전송하는 기술
DDR SDRAM은 DDR1~4를 거쳐 '23년 DDR5 양산 시작
| HBM 필요성
AI 연산에 필요한 GPU가 HBM의 높은 메모리 대역폭을 필요로 함.
GPU에 높은 메모리 대역폭이 필요한 이유는 병렬식 데이터 처리 구조 때문.
메모리 대역폭이 높을수록 GPU와의 데이터 전송 속도가 빨라지므로 학습 속도 빨라짐
예를 들어, 챗GPT 3.5의 파라미터 수는 1,750억개. (파라미터 많을수록 학습 효과 높음)
파라미터 수가 워낙 커서 GPU와 메인메모리 사이의 물리적 거리와 대역폭 한계로 처리속도 느림
>> HBM을 GPU 칩셋에 포함시켜 물리적 거리, 대역폭 문제 일괄 대응
AI 학습에 GPU가 많이 필요하긴 하지만, 사실 HBM이 더 많이 필요함.
그러나 GPU 칩셋 안에 HBM이 포함되어있고, HBM만 따로 애드온 하는 건 불가능해서
GPU가 많이 팔리는 것임
[참고]
메모리 대역폭(bandwidth) = 일정 시간 내 전송 가능한 데이터 처리량
메모리 대역폭 = f(클럭 속도, 버스 폭) * 버스 폭 : bus width
- 클럭 속도 : 메모리 모듈이 작동하는 속도(초당 사이클). 높을수록 데이터 빨리 전송
- 버스 폭 : 단일 클럭 주기에 전송 가능한 데이터 양. 버스 폭이 넓어지면 한 번에 더 많은 데이터 전송
* HBM의 버스폭은 1024bit > 한 클럭에 1024bit 데이터 전송 (일반 DDR5 버스폭은 64bit)
| HBM 제조공정
HBM은 TSV(Through Silicon Via) 공정(전공정에 해당)을 통해 실리콘 관통 전극을 형성한
DRAM die 여러 개를 적층하여 생산.
(1) TSV 공정을 통해 Via (일종의 구멍 같은 것) 형성 후 솔더 범프 형성
(2) 캐리어 웨이퍼 부착 후 백그라인딩
(3) 웨이퍼 뒷면에 범프 형성 후 칩 단위로 잘라서 적층
HBM 최하단부에는 제어기 역할을 하는 Logic die가 있고,
그 위에는 실제 메모리 역할을 하는 Core die를 8단/12단 적층.
ㅁ Logic die는 2.5D 패키지에서 인터포저에 직접 접합되므로 인터포저용 범프 배열을 가져야함
ㅁ Core die는 웨이퍼 앞면에 칩 적층을 위한 범프 배열로 범프를 형성
(1) 웨이퍼 앞면에 임시 접착용 캐리어 웨이퍼를 접착해 웨이퍼를 얇게 만든 뒤 뒷면에도 범프 형성
(2) 웨이퍼 앞뒤에 범프 형성되면 캐리어를 떼어낸 뒤 웨이퍼 절단
이렇게 만들어진 Core die를 Logic die에 적층&몰딩해 칩으로 만들어 엔비디아, AMD 등 고객사에 보냄.
이후 이 고객사들은 GPU, HBM 등을 파운드리에 보내 2.5D 패키징으로 최종 칩셋 생산
[참고1]
HBM3 8Hi(8단 적층) > 16Gb(2GB) die 8단을 적층해 16GB 용량 가짐.
12Hi는 16Gb(2GB)을 12단 적층해 24GB 용량 가짐.
DRAM 1b nm 부터는 32Gb 모노다이 구현 가능해질 것으로 추정
> 이 경우 32Gb 다이를 12단 적층하여 48GB 용량으로 증가
[참고2]
HBM은 GPU와 함께 2.5D 패키징을 해야 하므로 KGSD(Known Good Stack Die) 형태로 제작
> 연결핀이 일반적인 솔더볼이 아니라 마이크로범프
| HBM과 GDDR 비교
ㅁ HBM 장점
HBM이 GDDR 대비 대역폭이 더 넓다는 것 외에도,
수직 적층 방식을 사용하여 동일한 칩 면적당 더 높은 용량의 메모리를 구현 가능
ㅁ HBM 단점
GDDR 대비 높은 공정 난이도와 가격이 단점.
HBM에 사용되는 TSV 공정과 WLP(Wafer Level Package) 공정은 Standard DRAM 대비 어려움.
그래서 HBM 생산 수율은 상대적으로 낮은 편.
또한, GDDR은 PCB에 부착하지만,
HBM은 GPU 등 프로세서와 함께 실리콘 인터포저에 부착하는 공정이 추가로 필요.
그래서 메모리에 이상이 생기면 메모리만 교체 가능한 GDDR과 달리
HBM은 GPU 칩셋 자체가 사용 불가해진다는 게 단점
| HBM 고성장 but 전체 DRAM 매출 대비 낮은 비중
HBM은 AI, 데이터센터용 가속기에 사용되고 있음.
가트너는 '20~27년 가속기 출하량 CAGR을 19.5% > 20.2% 로 상향.
모든 가속기에 HBM이 들어가는 건 아니고, 저가형 AI 가속기에는 여전히 GDDR6 들어감
'23년 7월 SK하이닉스 기술세미나에서의 언급을 기반으로 추정해보면,
전체 가속기 시장의 25% 정도가 HBM 사용하는듯.
용량 측면에서 보아도, AMD의 MI300 Max는 HBM 으로 가속기 1개당 192GB 용량 가짐.
그러나 주메모리와 비교해보면, 서버 내 DIMM 메모리 모듈은 최대 12TB 까지 용량 확장 가능
따라서 전체 DRAM 시장에서 수량 기준 HBM 비중은 '23년 기준 0.8%, '27년 1.4%에 불과.
HBM이 주메모리 대비 용량당 가격이 8~10배 높다는 걸 감안해도,
DRAM 매출 내 HBM 비중은 최대 10% 초중반 > HBM 성장률이 높지만 DRAM 시장 내 비중 고려 필요
| AI 시대, 메모리 중요성 상승
현재 컴퓨터는 기본적으로 폰 노이만 구조를 따르고 있어
연산장치(프로세서), 저장장치(메모리)가 별도로 구성됨.
프로세서-메모리간 데이터 전송 통로는 "버스(Bus)"
데이터 전송 과정에서 전력 소모량 증가, 데이터 병목 발생.
이러한 문제점 완화를 위해 자주 사용하는 데이터는 프로세서에 포함된 메모리에 저장,
메모리 접근성 향상 및 데이터 병목 일부 해소 시도
프로세서는 메모리보다 속도가 훨씬 빨라서 프로세서를 직접 지원하는 메모리는 그만큼 속도가 빨라야함.
그러나 빠른 메모리 100% 로 시스템 구성 시 가격이 너무 높아지고, 하드웨어 구조상으로도 어려움 발생
빠른 저장 장치는 용량 대비 비싸고, 용량이 큰 장치는 용량 대비 저렴하지만 느림.
컴퓨터가 행하는 작업은 빠른 속도가 필요한 것도 있고, 많은 내용을 천천히 처리하는 것도 있음.
메모리 계층구조를 만들어서 각 상황에 맞게 여러 저장장치를 다양하게 사용해 가성비 좋은 컴퓨터 구현
레지스터 = CPU 내부에 위치한 기억장치.
CPU에 수많은 레지스터를 넣는 건 어려우므로 필수 레지스터만 포함시킴.
캐시메모리는 레지스터 다음으로 빠름.
CPU와 하나의 칩 속에 들어가도록 설계된 것은 아니지만 대부분 CPU 칩셋에 포함.
캐시메모리는 CPU와의 물리적 거리에 따라 L1, L2, L3,... 등 여러 단계로 나뉨.
숫자가 작을수록 용량이 작고 빠름. 주로 SRAM으로 구성
HBM은 주메모리에 해당되지만 GPU 칩셋에 포함되어 프로세서에 가까운 Near Memory 역할 수행
| 고용량 메모리 중요도 상승
AI 등장 이전에도 마이크로소프트는 인프라 비용을 제외한 데이터센터 서버 BOM cost 중
메모리 구입비 비중이 50% (메타는 60% 비중)
* BOM cost = Bill Of Material cost : 부품, 자재비 (인건비 미포함)
주목할 점은, HBM이 탑재된 GPU 여러개가 서버에 들어가고 있으나
CPU가 사용하는 메모리 용량은 그대로라는 것.
게다가 일반 서버 대비 AI 서버는 주메모리 용량이 2~4배 더 큼
| 시사점
AI발전에 따른 수혜는 HBM 뿐 아니라 메모리 전체에 적용됨.
AI 발전 시 이를 대중에게 전달하는 데이터센터 컴퓨팅 서버 수요도 증가할 것.
HBM 뿐 아니라 Standard DRAM 수요도 증가한다는 의미
HBM 밸류체인과 후공정도 중요하지만, 전공정 투자도 중요.
HBM도 DRAM 최선단공정인 1a nm Wafer를 적층해서 만드는 것이므로
전공정 투자를 해야 이 웨이퍼를 만들어서 HBM을 만든다는 의미.
메모리업황 둔화로 1a nm, 1b nm, DDR5 투자 등이 예정보다 축소되거나 연기됨.
향후 메모리 공급업체들은 수요증가 전망에 대응한 전공정 투자 필요.
후공정 투자는 띄엄띄엄 발생하지만 전공정 투자는 지속 발생
'23년 하반기 중 삼전닉스 '24년 CAPEX가 나올텐데,
제한된 투자금액 중 우선순위에 들어갈 수 있는 장비업체를 선별하는 게 중요
단기적으로 AI 수혜는 NAND보다 DRAM에 집중될 것임.
GPU와 함께 우선수위를 갖는 게 DRAM이기 떄문.
AI투자를 주도하고 있는 데이터센터 업체들도 한정된 투자금액 내에서
GPU와 DRAM 구매에 집중하다보니 SSD 등 NAND 수요는 일시 감소.
AI 시대에도 고성능 SSD가 필요하지만 일단은 후순위이기 때문임
Comments
Post a Comment