추론 성능, 어디서 차이가 벌어지는가
대규모 언어 모델(LLM)을 자체 인프라에서 운영하려는 기업이 늘면서, "어떤 GPU를 써야 하는가"라는 질문이 단순한 모델 사양 비교 이상의 의미를 갖기 시작했습니다. 학습이 아니라 추론(serving) 관점에서 보면, NVIDIA H100과 새로 출시된 HGX B300 사이에는 단순한 세대 차이 이상의 격차가 존재합니다.
본 글에서는 우리가 마곡 데이터센터에 도입한 HGX B300 클러스터를 기준으로, 추론 워크로드에서 H100 대비 약 10배의 처리량 차이가 어떻게 발생하는지 정리합니다. 학습이 아닌 추론에 초점을 맞추는 이유는 단순합니다 — 대부분의 실 사용 인프라 비용은 모델 학습이 아니라 모델 서빙(serving)에서 발생하기 때문입니다.
메모리 대역폭이 첫 번째 변수입니다
H100은 HBM3 80GB 구성을 사용하며 메모리 대역폭은 약 3.0 TB/s 수준입니다. 반면 B300은 HBM3e 기반으로 메모리 용량과 대역폭이 모두 큰 폭으로 향상되었습니다. 추론은 학습과 달리 메모리 대역폭이 곧 토큰 생성 속도(tokens/sec)를 좌우합니다. 가중치를 매 토큰마다 다시 읽어야 하기 때문에, 대역폭이 1.5배 향상되면 가용 처리량도 비슷한 비율로 향상되는 것이 일반적입니다.
인터커넥트는 두 번째 변수입니다
대형 모델 — 70B 파라미터 이상 — 을 단일 GPU에 적재할 수 없는 경우, GPU 간 통신이 병목이 됩니다. B300의 NVLink 대역폭은 H100 대비 큰 폭으로 향상되어, 멀티-GPU 텐서 병렬화 시의 통신 오버헤드가 크게 줄어듭니다. 이 차이는 특히 배치 크기가 작은 실시간 추론(low-latency serving)에서 두드러집니다.
결과: 추론 처리량 약 10배
위 두 변수와 트랜스포머 엔진의 FP4/FP8 추론 최적화가 결합되면, 동일 모델을 서빙할 때 H100 대비 약 10배의 토큰 처리량을 얻을 수 있습니다. 단, 이 수치는 워크로드별로 편차가 큽니다 — 짧은 컨텍스트의 분류 작업에서는 격차가 줄어들고, 긴 컨텍스트의 생성 작업에서는 격차가 더 커집니다.
비용 관점
마곡 B300은 GPU 시간당 ₩10,000부터 시작하며, 3년 약정 기준 추론 단가는 하이퍼스케일러 대비 2~3배 저렴합니다. 약 10배의 처리량과 결합하면, 같은 토큰 수를 처리하는 데 필요한 비용이 H100을 운영하는 경우의 약 1/10 ~ 1/15 수준이 됩니다. 자체 인프라로 LLM을 서빙하려는 기업에게 이 수치는 단순한 성능 향상이 아니라, 사업 모델의 재검토를 요구하는 변화입니다.
도입 검토 시 확인할 항목
- 운영하려는 모델의 컨텍스트 길이와 배치 패턴
- 실시간 응답이 필요한지(latency-bound) vs 배치 처리에 가까운지(throughput-bound)
- 데이터 주권 요구 사항 — 도심형 데이터센터 입지가 갖는 의미
- 약정 기간 — 3년 약정 시의 단가 우위
마곡 B300 도입 상담은 문의 페이지에서 받고 있습니다. 실제 워크로드 기준의 벤치마크 자료는 브로셔 PDF를 참고하시기 바랍니다.