2018년에 등장한 시에라(Sierra) 슈퍼컴퓨터와 2024~2025년 출시된 엔비디아의 그레이스 블랙웰(Grace Blackwell) 기반 슈퍼컴퓨터는 불과 6~7년이라는 시간 차이에도 불구하고, 기술적 성능과 활용 목적에서 엄청난 격차를 보입니다. 단순히 성능 수치를 넘어, AI 시대의 요구에 맞춰 슈퍼컴퓨터의 패러다임이 어떻게 변화했는지 두 시스템을 비교하여 설명합니다.

1. 세대와 아키텍처의 진화
- 시에라 (2018년): IBM의 POWER9 CPU와 엔비디아의 Tesla V100 GPU(Volta 아키텍처)를 결합한 하이브리드 시스템입니다. 주로 핵무기 시뮬레이션, 과학 연구 등 고전적인 고성능 컴퓨팅(HPC) 작업에 특화되었습니다. 당시에는 세계 최고 수준의 성능을 자랑했으나, 방대한 수의 노드와 GPU(17,896개)를 통해 병렬 연산을 수행하는 방식이었습니다.
- 그레이스 블랙웰 (2024~2025년): 엔비디아가 개발한 최신 아키텍처로, Grace CPU와 Blackwell GPU를 하나의 ‘슈퍼칩(GB10, GB200 등)’으로 통합한 것이 특징입니다. 5세대 텐서코어와 FP4(4비트 부동소수점) 지원 등 AI 연산에 최적화된 설계로, 초거대 언어모델(LLM) 개발, AI 학습 및 추론 등 인공지능 관련 작업에 특화되어 있습니다.

2. 성능 및 효율성의 혁명적 변화
두 시스템의 가장 극적인 차이는 바로 ‘성능 집적도’와 ‘효율성’입니다.
- 시에라의 성능: 최대 125 페타플롭스(PFLOPS)의 연산 성능을 위해 4,474개의 노드와 약 18,000개의 GPU, 그리고 11MW(메가와트) 이상의 막대한 전력이 필요했습니다.
- 그레이스 블랙웰의 충격적인 성능: 단일 노드(GB200 슈퍼칩)만으로도 40 PFLOPS의 AI 연산 성능을 제공합니다. 이는 2018년 시에라 전체 슈퍼컴퓨터와 맞먹는 성능을 ‘극소형화’하여 단일 노드에 구현한 것입니다.
- 특히, DGX GB300 NVL72 시스템(72개 Blackwell GPU, 36개 Grace CPU)은 **1.1 엑사플롭스(1,100 PFLOPS)**의 FP4 추론 성능을 달성합니다. 이는 시에라 전체 성능(125 PFLOPS)의 약 8.8배에 달하는 수치입니다.
- 엔비디아는 Blackwell GPU가 기존 대비 36배 더 높은 추론 처리량과 토큰당 약 32배 낮은 비용을 제공한다고 밝혀, 성능 효율성 면에서 압도적인 진화를 보여줍니다.
3. 활용 목적과 사용자 경험의 변화
- 시에라: 주로 국가 연구소나 대형 과학 기관에서 대규모 시뮬레이션과 데이터 분석을 위해 활용되었습니다. 시스템 구성과 운영이 복잡하고, 접근성이 높지 않았습니다.
- 그레이스 블랙웰: AI 모델 개발자, 연구자들에게 혁신적인 경험을 제공합니다. 단일 데스크톱 환경에서도 대형 AI 모델을 실험하고, 이를 클라우드나 데이터센터로 손쉽게 확장할 수 있도록 설계되었습니다. 실시간 LLM 서비스, 대규모 배치 추론, 실시간 금융 사기 탐지, 스마트 홈 제어 등 고도의 실시간성과 저지연이 요구되는 AI 서비스에 최적화되어 있습니다. 사용자 수백만 명이 동시에 AI 챗봇을 사용하더라도 거의 즉각적인 응답이 가능하며, 운영 비용도 크게 절감됩니다.
결론적으로, 2018년의 시에라가 ‘과학 시뮬레이션을 위한 거대한 연산 기계’였다면, 2025년의 그레이스 블랙웰은 ‘AI 시대의 모든 요구를 만족시키는 고효율, 고집적 AI 플랫폼’으로 진화했습니다. 이는 단순히 속도 향상을 넘어, AI 기술의 대중화와 광범위한 적용을 가능하게 하는 패러다임의 전환을 의미합니다.