세계적으로 AI기술 경쟁이 가속화하면서 AI를 학습시키고 서비스를 하기 위한 AI반도체에 대한 수요는 지속하여 증가하고 있습니다. 하지만 수요만큼 공급이 따라가지 못하면서 거대 정보통신 기업들은 자체 AI반도체 개발에 나서며 엔비디아가 지배하는 시장에 도전장을 내밀고 있습니다. 메타(구 페이스북)도 24년 4월 메타의 AI반도체, MTIA를 공개하였는데요. 오늘은 세계적인 IT 기업인 메타의 AI반도체, MTIA에 대해 알아봅시다.
메타의 AI반도체
메타는 최근 자사의 블로그를 통해 MTIA(Meta Training and Inference Accelerator)라는 차세대 AI반도체를 공개했습니다. MTIA는 메타가 이전에 발표한 반도체 MTIA v1의 차세대 모델로, 순위 및 추천 광고모델을 강화하는 데 도움을 주며 성능면에서 이전 모델 대비 3배 더 뛰어난 것으로 소개되었습니다.
메타의 차세대 대규모 인프라는 새로운 생성형 AI(GenAI) 제품 및 서비스, 추천 시스템, 고급 AI 연구 지원 등 AI를 중심으로 구축되고 있습니다. 모델의 정교함과 함께 AI 모델을 지원하기 위한 컴퓨팅 요구 사항이 증가함에 따라 앞으로 몇 년 동안 투자가 증가할 것으로 예상합니다. 2023년에 메타는 AI 워크로드를 염두에 두고 자체 설계한 1세대 AI 추론 가속기인 MTIA(Meta Training and Inference Accelerator) v1을 공개하였고 2024년 이를 업그레이드한 차세대 모델인 MTIA를 공개하였습니다.
MTIA는 메타의 고유한 워크로드에 가장 효율적인 아키텍처를 제공합니다. AI가 메타의 제품과 서비스에 점점 더 중요해짐에 따라 이러한 효율성은 전 세계 사용자에게 최고의 경험을 제공하기 위한 능력을 향상할 것입니다.
MTIA
이제 MTIA에 대한 세부 정보를 알아볼까요?
이 추론 가속기는 고유한 워크로드와 시스템을 처리하는 도메인별 맞춤형 실리콘을 위한 광범위한 풀 스택 개발 프로그램의 일부입니다. 새로운 MTIA는 워크로드와의 긴밀한 연계를 유지하면서 이전 솔루션의 컴퓨팅 및 메모리 대역폭을 두 배 이상 증가하여 사용자에게 고품질 추천을 제공하는 순위 및 추천 모델을 효율적으로 제공하도록 설계되었습니다.

MTIA 반도체의 아키텍처는 기본적으로 순위 및 추천 모델을 제공하기 위해 컴퓨팅, 메모리 대역폭 및 메모리 용량의 적절한 균형을 제공하는 데 중점을 두고 있습니다. 추론에서는 배치 크기가 상대적으로 작은 경우에도 상대적으로 높은 활용도를 제공할 수 있어야 합니다. 일반적인 GPU에 비해 더 큰 SRAM 용량을 제공하는 데 중점을 둠으로써 배치 크기가 제한된 경우 높은 활용도를 제공하고 더 많은 양의 잠재적 동시 작업을 경험할 때 충분한 컴퓨팅을 제공할 수 있습니다.
이 가속기는 처리 요소(PE)의 8×8 그리드로 구성됩니다. 이러한 PE는 상당히 향상된 고밀도 컴퓨팅 성능(MTIA v1보다 3.5배)과 희소 컴퓨팅 성능(7배 개선)을 제공합니다. 이는 부분적으로 희소 컴퓨팅 파이프라인과 관련된 아키텍처 개선에서 비롯됩니다. 이는 또한 PE 그리드에 공급하는 방식에서도 비롯됩니다. 로컬 PE 스토리지의 크기를 3배로 늘리고, 온칩 SRAM을 2배로 늘리고, 대역폭을 3.5배로 늘리고, LPDDR5의 용량을 2배로 늘렸습니다.

우리의 새로운 MTIA 디자인은 또한 대역폭을 두 배로 늘리고 낮은 대기 시간으로 서로 다른 PE 간을 조정할 수 있게 해주는 향상된 NoC(Network on Chip) 아키텍처를 특징으로 합니다. PE의 이러한 기능과 그 외 새로운 기능은 MTIA를 보다 다양하고 까다로운 워크로드로 확장하기 위한 장기 로드맵에 필수적인 핵심 기술을 형성합니다.
하드웨어
워크로드를 효과적으로 제공하는 것은 단순히 반도체만의 과제가 아닙니다. 전체 추론 솔루션의 성공을 위해서는 반도체와 함께 하드웨어 시스템과 소프트웨어 스택을 공동 설계하는 것이 필수적입니다.
차세대 MTIA를 지원하기 위해 우리는 최대 72개의 가속기를 수용할 수 있는 대규모 랙 기반 시스템을 개발했습니다. 이는 각각 2개의 가속기를 수용하는 12개의 보드를 포함하는 3개의 섀시로 구성됩니다. 우리는 칩을 1.35GHz(800MHz에서 최대)로 클럭하고 1세대 설계의 25와트에 비해 90와트에서 실행할 수 있도록 시스템을 특별히 설계했습니다. 우리의 설계는 더 높은 컴퓨팅, 메모리 대역폭 및 메모리 용량으로 더 높은 밀도의 기능을 제공하도록 보장합니다. 이러한 밀도를 통해 우리는 광범위한 모델 복잡성과 크기를 더 쉽게 수용할 수 있습니다. 이 외에도 가속기 간, 호스트와 가속기 간 패브릭을 PCIe Gen5로 업그레이드하여 시스템의 대역폭과 확장성을 높였습니다. 랙 이상으로 확장하기로 선택한 경우 RDMA NIC를 추가하는 옵션도 있습니다.

소프트웨어 스택
소프트웨어는 MTIA에 대한 투자 시작부터 메타가 중점을 둔 주요 영역 중 하나였습니다. 메타는 PyTorch의 초기 개발자로서 프로그래밍 가능성과 개발자 효율성을 중요하게 생각합니다. 그러므로 MTIA 스택은 PyTorch 2.0 및 TorchDynamo 및 TorchInductor와 같은 기능과 완벽하게 통합되도록 설계되었습니다. 프런트엔드 그래프 수준 캡처, 분석, 변환 및 추출 메커니즘(예: TorchDynamo, torch.export 등)은 MTIA와 무관하며 재사용됩니다. MTIA용 하위 수준 컴파일러는 프런트엔드의 출력을 가져와 매우 효율적인 장치별 코드를 생성합니다. 이 하위 수준 컴파일러 자체는 모델 및 커널에 대한 실행 코드 생성을 담당하는 몇 가지 구성 요소로 구성됩니다.
그 아래에는 드라이버/펌웨어와의 인터페이스를 담당하는 런타임 스택이 있습니다. MTIA 스트리밍 인터페이스 추상화는 추론 및 (향후) 훈련 소프트웨어가 장치 메모리를 관리하고 장치에서 연산자를 실행하고 컴파일된 그래프를 실행하는 데 필요한 기본적이고 필수적인 작업을 제공합니다. 마지막으로 런타임은 사용자 공간에 있는 드라이버와 상호 작용합니다. 이는 프로덕션 스택 내의 드라이버와 펌웨어를 더 빠르게 반복할 수 있도록 하기 위한 결정입니다.
여러 면에서 이 새로운 칩 시스템은 MTIA v1과 유사한 소프트웨어 스택을 실행하므로 이 아키텍처에서 애플리케이션을 실행하는 데 필요한 통합 및 개발 작업을 이미 많이 수행했기 때문에 팀의 배포 속도가 훨씬 빨라졌습니다. 새로운 MTIA는 MTIA v1용으로 개발된 코드와 호환되도록 설계되었습니다. 메타는 이미 전체 소프트웨어 스택을 반도체에 통합했기 때문에 며칠 만에 이 새로운 칩으로 트래픽을 가동하고 실행할 수 있었으며 이를 통해 메타는 9개월 이내에 첫 번째 반도체부터 16개 지역에서 실행되는 생산 모델까지 차세대 MTIA 를 빠르게 출시할 수 있었습니다.
트리톤-MTIA
메타는 MTIA 하드웨어용 고성능 코드를 생성하기 위해 Triton-MTIA 컴파일러 백엔드를 생성하여 소프트웨어 스택을 더욱 최적화했습니다. Triton-MTIA 백엔드는 하드웨어 활용도를 극대화하고 고성능 커널을 지원하기 위해 최적화를 수행합니다. 또한 Triton 및 MTIA 자동 조정 인프라를 활용하여 커널 구성 및 최적화 공간을 탐색할 수 있는 주요 손잡이를 노출합니다.
메타는 Triton 언어 기능에 대한 지원을 구현하고 PyTorch 2에 통합하여 PyTorch 운영자에게 광범위한 적용 범위를 제공했습니다. 예를 들어 TorchInductor 덕분에 개발자는 AOT(Ahead-of-Time) 및 JIT(Just-In-Time) 워크플로 모두에서 Triton-MTIA를 활용함으로써 개발자 효율성이 극적으로 향상되는 것을 확인했습니다. 이를 통해 컴퓨팅 커널 작성을 확장하고 PyTorch 연산자 지원을 크게 확장할 수 있었습니다.
메타의 새로운 AI반도체인 MTIA는 메타의 여러 서비스에 최적화된 칩입니다. 이를 기반으로 메타의 AI서비스가 어디까지 발전할지 기대됩니다.