
현재 AI 시장을 이끄는 기업은 대부분 미국 기업들이다. 이들은 거대언어모델(LLM)로 대표되는 딥러닝 기반의 트랜스포머 알고리즘을 자체 구축하고, 이를 구현할 수 있는 칩을 설계도 할 수 있다. 트랜스포머 기반의 파운데이션 모델은 인공 신경망 기반으로 구축되는데, 수천 억 개 이상의 파라미터 규모를 갖는 것으로 알려져 있다.
이를 효과적으로 구현하기 위해 AI 모델 개발사들은 자체적인 딥러닝 알고리즘도 개발한다. 일부 회사들은 아예 거대한 데이터를 효과적으로 빠르게 처리하기 위한 다양한 전용 시스템 도체를 자신들의 모델 맞춤형으로 설계한다.
주목할 부분은 맞춤형 AI 반도체는 설계까지만 가능하다는 것이다. AI 반도체 시장에서 여전히 범용으로 활용되는 반도체는 다름 아닌 그래픽프로세서(GPU)다. 1990년대 후반-2000년대 후반까지만 해도 GPU는 주로 게임용 고성능 그래픽처리장치로 활용되었다. 흥미롭게도 2012년 이른바 이미지 인식 경진대회에서 충격을 안겨준 알렉스넷(Alexnet), 그리고 2016년에 인간 바둑기사와의 승부에서 충격적인 성과를 보여 준 알파고(AlphaGo)가 등장하기 시작하면서 GPU에 대한 관점은 완전히 바뀌었다. 고차원 대용량 데이터를 빠르게 처리할 수 있는 딥러닝 전용 프로세서가 되었기 때문이다.
I AI 시대, GPU가 주목받는 이유

CPU는 왜 인공지능 반도체의 주력으로 사용되지 않을까? CPU는 단일 산술-논리 계산에 대해서라면 GPU와 비교해 훨씬 높은 정밀도로 훨씬 빠른 계산을 할 수 있다. 그렇지만 GPU가 AI 반도체로 각광받는 핵심 이유는 산술-논리 병렬 연산 능력에 있다. GPU에는 단위 개수로만 따지면 CPU보다 훨씬 많은 코어(core)가 집적된다. 그리고 병렬 연산을 각각의 코어에 분산하여 ‘한번에’ 처리한다.
이에 반해 CPU는 직렬 계산을 수행하는데, 당연히 계산 속도는 GPU의 병렬 처리에 비해 매우 느리다. 이를 비유하자면, 경력 30년의 일류 요리사가 1시간 동안 세계 최고 수준의 요리를 만들 수 있지만, 그 요리를 먹을 수 있는 고객은 겨우 10명 이내 밖에 안 되는 반면, 1년만 훈련받은 초보 요리사 100명이 1시간 동안 동시에 요리하면, 최고 요리사가 만드는 것만큼의 최고급까지는 아니더라도 먹을만한 수준의 요리를 짧은 시간 동안 1,000인분 이상 만들어낼 수 있는 것과 비슷하다. 사전에 어떻게 데이터를 분배하고 처리한 후, 다시 모을 것이냐의 순서만 잘 정해두면 단순한 곱셈/덧셈의 반복 연산은 GPU가 훨씬 빠르다.
CPU는 GPU에 비해 이런 병렬 연산이 거의 불가능한 대신, 부동소수점 자리를 더 많이 가져갈 수 있다. 즉, 정밀한 계산을 GPU의 개별 코어보다는 훨씬 더 잘할 수 있고, 따라서 정확도가 필요한 ALU 계산은 당연히 CPU가 GPU보다 훨씬 잘한다.
다만 반복된 계산은 대부분 그렇게 높은 정밀도를 요구하지 않으므로 GPU의 병렬 계산이 훨씬 유리하다. 이러한 병렬 계산은 딥러닝 같은 기계학습 알고리즘의 핵심에 있는 합성곱(convolution) 같은 행렬 계산에 더욱 유리하다. 병렬 처리의 속도를 개선하는 방법은 코어의 개수를 더 늘리거나, 코어와 코어 사이의 정보 주고받기 속도를 더 빠르게 하는 것이다. 이를 위해 메모리를 각 코어와 통합할 수도 있고, 대역폭(bandwidth)을 더 늘릴 수도 있다.
* 합성곱: 두 신호(또는 행렬)를 겹쳐가며 곱해 더하는 연산으로, 이미지나 음성 등에서 특징을 추출하는 데 사용된다.
I 특정 GPU에 편중된 AI 가속기 시장

이렇게 대용량 AI 알고리즘에 특화된 GPU는 다른 기업도 당연히 설계할 수 있으나, AI 가속기 시장이 독점 구도로 흐르게 된 주된 이유 중 하나는 CUDA라는 전용 API가 있었기 때문이다. CUDA는 이미 GPU를 이용하여 머신러닝을 활용하는 모든 개발자나 연구자들에게는 필수재가 된 지 오래다. CUDA API를 활용하여 AI를 개발하고자 하는 사람들은 계속 특정 GPU에 의존하게 될 수밖에 없다. 이에 대항하는 대항마가 없는 것은 아니다. 예를 들어 CUDA 역할을 하는 OpenCL 같은 툴이 있다. 그러나 OpenCL은 CUDA 진영에 비해서는 여전히 커뮤니티가 작고, 공유되는 리소스가 적다. CUDA가 구축한 생태계는 반면 훨씬 강력하고, 점점 AI 반도체 설계와 제조에 있어 위력을 발휘하고 있다.
* CUDA API : 특정 업체의 GPU에서 병렬 연산을 수행할 수 있도록 제공되는 프로그래밍 플랫폼으로, GPU 가속 애플리케이션 개발에 널리 쓰임.
I GPU 의존을 낮추기 위한 다양한 노력들

AI 반도체 칩의 수요는 일명 하이퍼 스케일러(Hyper scaler)로 불리는 클라우드 서비스 대기업이 주도하고 있다. 이로 인해 특정 업체가 지배하는 AI 반도체 시장 구도는 독점적이다. 그러나 압도적인 AI 반도체 지배력이 계속될 것이라 단정하기는 이르다. 그 이유는 무엇보다도 하이퍼 스케일러들이 특정 칩에 대한 과한 의존도를 완화하기 위해 자체 데이터서버용 AI 칩을 개발할 가능성이 높기 때문이다.
특히 인공지능 모델 개발사들이 향후 몇 년 이내로 더욱 시장이 확장될 엣지 AI(Edge AI) 솔루션 시장도 노리고 있는데, 이를 위해 저전력 추론에 특화된 온-디바이스 AI 제품으로 인공지능 반도체 시장이 다변화될 것이다. 학습이 중요한 AI 데이터 서버 시장에서도 GPU 의존도를 탈피하기 위해 신경망학습에 특화된 맞춤형 칩인 NPU 시장이 고속 성장할 것으로 보인다.
한국의 AI 서비스 업체들의 전략은 세부 영역에 따라 맞춤형으로 수립될 필요가 있다. 대형 IT 업체들은 자체 AI 파운데이션 모델 개발과 그 모델에 기반한 소비자 맞춤형 AI 서비스에 대해 GPU만 사용할 필요는 없다. 예를 들어 LLM 모델 전용으로 ASIC 칩, 즉, LPU를 개발하려는 AI 반도체 설계 팹리스 업체들은 HBM이 아니라 LPDDR 기반의 메모리 확장 전략을 취한다.
LPU 팹리스 업체들이 추구하는 LPDDR은 HBM에 비해 대역폭의 한계가 있으나, 이들의 전략은 이를 모델 경량화(pruning과 양자화) 방식으로 우회한다. 경량화된 모델은 LPDDR의 메모리 속도 개선 및 메모리-코어 간 연결을 강화하여 극복할 수 있다. 추론 AI 서비스는 클라우드 서버의 데이터 흐름 관리에 특화된 메모리 컨트롤러 기술과 더불어, 멀티모달 데이터 전송에 특화된 네트워크 기술도 중요하다. 이를 위해 이러한 기능이 집약된 칩렛 패키징Chiplet packaging 같은 이종접합 패키징(Heterogeneous Integration) 기술이 중요하다.
* 칩렛 패키징 : 하나의 큰 칩 대신 기능별로 나눈 여러 개의 작은 칩(이를 칩렛이라고 부름)을 패키지 내부에서 고밀도 인터커넥트로 연결해, 성능/수율/개발 유연성을 높이는 패키징 방식
* 이종접합 패키징 : 공정, 소재, 기능이 다른 반도체 칩(예: 로직-메모리, Si-광소자 등)을 하나의 패키지(또는 적층 구조)로 통합해 시스템 성능과 집적도를 끌어올리는 패키징 기술
I GPU 전력 소모 문제의 대안 : ASIC 기반 AI 반도체

인공지능 파운데이션 모델에 특화된 서버용 AI 반도체 시장은 NPU 혹은 TPU같은 비 GPU 시스템 반도체를 앞으로 더 많이 채용할 가능성이 높아진다. 사실 TPU 같은 가속기는 비록 범용으로 사용될 수 있는 GPU보다는 적용 범위가 좁다. 그렇지만 특정 목적을 위해서라면 범용 GPU보다 더 빠르게 더 저전력으로 연산 가속이 가능하다.
그림 4에 보인 것처럼 GPU가 행렬 곱하기 연산을 할 때 연결된 코어들을 활용하는 반면, TPU는 코어 하나하나에 행렬 성분을 미리 분배하여 곱하기 연산을 가속하는 방식은 GPU와 TPU의 차이가 왜 생기는지를 보여준다. 산업용 AI 모델을 개발하거나 그에 적합한 경량화 AI 반도체는 모델-칩 동시 최적화가 필요하다. GPU는 성능 강화를 위해 점점 소요 전력이 급증한다는 문제가 있으므로, 시간이 지날수록 학습형 AI 반도체는 물론, 서비스용 추론형 AI 반도체 시장은 점점 저전력 ASIC 기반으로 무게중심이 옮겨갈 수 있다.
다만 ASIC 기반의 칩들도 연산량이 늘어나면 메모리에 대한 의존도는 더 높아질 수밖에 없다. HBM 의존도를 낮추면서도 메모리 의존도를 해결하기 HBM을 대체할 수 있는 범용 메모리반도체 자체의 성능 향상이 필요하다.
* TPU: NPU 중에서도 딥러닝 추론 및 학습의 행렬연산을 빠르고 효율적으로 처리하도록 설계한 전용 AI 가속기(ASIC)
I AI 칩 다변화와 첨단 패키징 기술 부상

현재의 AI 시장은 점점 무겁고 파라미터 공간 크기가 커진 LLM 같은 알고리즘을 구현할 수 있는 전용 가속기를 요구한다. 기본적으로 수천 억 개 이상의 파라미터 세트를 갖는 LLM의 신경망 학습은 GPU 한 장만으로는 감당하기 어렵다. 그래서 수백-수천, 심지어 수만 장의 GPU가 집적된 서버에 대한 수요도 늘어난다.
다만 현재 시장은 수요가 공급을 초과하고 있는 상황이기 때문에, GPU 서버 가격은 공급자가 주도한다. GPU 시장을 독점하는 업체의 매출과 수익도 2026년까지 각각 3,000억 달러와 1,300억 달러 이상으로 치솟을 것으로 전망되는데, 특히 수익은 2023년 대비 5배 이상 높아지는 수준에 이를 전망이다.
대형 AI 가속기 시장만 노리는 것이 아니라, 경량화된 AI 전용, 즉, 온디바이스(on-device AI) 전용 소형화된 저전력으로 구동 가능한 칩도 시장이 형성되고 있다. 특히 온디바이스 AI 전용 칩은 경량화 AI 모델은 물론, 일부 생성이나 추론에도 특화된 기능을 염두에 두고 있기 때문에 스마트 기기 같은 소비자 기기 시장이 성장할 것이 예상된다.
그러나 GPU 설계 업체는 칩 제조 자체를 하지는 않는다. 칩 제조는 전문 파운드리에 맡겨야 하지만, 그 요구를 감당할 파운드리는 제한적이다. GPU 같은 AI 가속기 제조에서 가장 중요한 점은 안정적인 수율로 고객이 설계한 고성능 연산기 맞춤형 시스템 반도체를 꾸준히 양산할 수 있는 능력이다. GPU 칩의 경우 높은 트랜지스터 밀도를 요구하기 때문에 가장 앞선 초미세 공정 기술이 필요하다. 팹리스-파운드리 관계에서 특정 파운드리 의존도가 너무 높아지는 것은 팹리스 업체들에게 불리한 요소가 될 수 있다. 최근 불거지는 지정학적 문제, 천문학적으로 치솟는 파운드리 업체의 CAPEX가 원가에 반영되는 구조적 문제 등이 점점 고조될 가능성이 높기 때문이다.
제조 의존도를 낮추면서도 시장 다변화로 불확실성에 대비한다는 차원에서, AI 가속기-반도체 팹리스 업체들은 다양한 분야의 산업 자동화 시장도 노린다. 특히 주목할 부분은 기존 제조 공정 의존도가 주로 파운드리의 전공정에 있었던 반면, 앞으로는 원가 절감 및 산업 자동화에 특화된 고성능 칩 제조의 무게중심은 후공정, 즉, 패키징 공정으로 옮겨갈 수 있다는 것이다. 이를 위해 여러 종류의 이종 칩들, 즉, 칩렛(chiplet)을 한 다이(die)에 집적해야 할 수 있게 하기 위해서라도 AI가 더 적극 활용될 것으로 예상된다.
I 폰 노이만 구조에서 메모리 반도체의 한계

메모리반도체 역시 AI 반도체에서 핵심 기술 병목이다. AI 가속기의 산술 연산 속도가 아무리 빨라져도, 메모리 뱅크에서 데이터를 꺼내 오고 처리된 데이터를 다시 메모리뱅크로 보내는 속도는 훨씬 느리기 때문이다. 메모리 속도를 결정하는 것은 메모리의 대역폭(bandwidth)이다. 글로벌 메모리 메이커 중에서 고대역폭 메모리High bandwidth memory (HBM)을 양산하는 업체는 소수다.
왜 AI 반도체에서는 기존의 DDR 같은 DRAM이 아니라, HBM 같은 맞춤형 메모리가 필요할까? 이를 이해하기 위해서는 메모리 장벽(Memory wall)이라는 개념 이해가 필요하다. 현대 컴퓨터의 기본 구조는 폰 노이만(von Neumann)이 제안한 구조를 따른다. 그 핵심은 계산을 담당하는 부분과 계산을 해야 하는 데이터 혹은 계산한 데이터를 저장하는 부분을 물리적으로 분리하는 것이다. 계산 담당 부분은 주로 논리 혹은 산술 계산 담당 유닛(이를 통틀어 ALU(arithmetic logic unit)라고 부른다.) 이라고 칭하고, 데이터를 저장하고 입출력을 담당하는 유닛은 메모리라고 부른다.
I AI 연산에 최적화된 메모리 반도체의 필요성

데이터의 저장과 주고받기 난도가 데이터를 직접 계산하는 것보다는 낮으니, 작업 속도도 그만큼 빠를 것처럼 생각된다. 그렇지만 사정은 정반대다. ALU의 기본 작동 방식은 아주 작은 전기 스위치라고 볼 수 있는 트랜지스터의 스위치 on/off state를 각각 0과 1에 배분하여, 디지털(2진수) 신호로 들어오는 전기적 정보들을 연산하는 것이다. 따라서 계산 속도는 얼마나 많은 트랜지스터가 얼마나 빨리 동작하느냐에 거의 선형으로 비례한다. 비유하자면 택배를 모아 처리하는 택배 센터의 성능은 얼마나 많은 택배 분류자들이 얼마나 빠르게 택배를 바코드 리더로 태깅하는지에 달린 것과 같다.
반면 메모리 사정은 좀 다르다. 데이터 저장은 디지털 신호 읽기/쓰기에만 그치는 것이 아니다. 마치 엄청난 택배 물품을 잔뜩 싣고 온 거대한 트럭이 거대한 건물의 우편함을 일일이 찾아다니며 택배를 배달하는 것을 생각하면 된다. 택배 개수가 비교적 적다면 배송 시간은 앞서 언급한 태깅 시간과 큰 차이 안 나겠지만, 택배량이 많을수록 그 격차는 점점 벌어진다.
빠른 정보 처리, 읽고 쓰기 속도가 가능해진 이유는 ALU가 충분히 빨라져서이기도 하지만, 메모리도 빨라졌기 때문이다. 그러나 ALU와 메모리는 원리 상 시간이 지남에 따라 속도 격차가 벌어진다. 그림 7에 보인 바와 같이 1995년 기준 ALU의 동작 속도(단위는 FLOPS로 표기한다.)는 지난 25년 간 대략 20만 배 정도 증가했다. 이는 대략 2년마다 3배 이상씩 증가한 것에 해당한다.
반면 DRAM 속도는 상대적으로 느렸다. 1995년에 비해 메모리 속도(메모리반도체 속도 단위는 대역폭(bandwidth)으로 표기한다.) 40배, 즉, 2년마다 1.4배 정도 증가에 그쳤다. 그래서 ALU와 메모리의 속도 격차는 시간이 지날수록 벌어진다. 로직 반도체와 메모리 속도 격차는 10년이 지나면 2,000-3,000배로, 20년이 지나면 8-9백만 배로, 30년이 지나면 20억 배 이상으로 벌어진다.
이로 인해 CPU나 GPU 코어 같은 ALU가 연산 속도 클럭을 계속 높일 수 있다고 하더라도 결국 컴퓨팅 체감 속도는 메모리에서의 병목 현상으로 인해 메모리가 지배하게 된다.
* FLOPS: 초당 부동소수점 연산 횟수를 뜻하는 성능 지표로, 컴퓨팅 장치가 실수(소수점) 계산을 얼마나 빨리 수행하는지를 의미함.
* Bandwidth: 단위 시간당 전송할 수 있는 데이터 양을 의미하는 지표로, 메모리 데이터 이동 능력을 의미.
※ 본 콘텐츠는 외부 기고자의 개인적 견해를 바탕으로 작성되었으며, 당사의 공식 입장과는 무관합니다.
⠀

[LX세미콘 소식 바로가기]
LX세미콘 공식 뉴스룸
LX세미콘 공식 블로그
LX세미콘 공식 유튜브
LX세미콘 공식 페이스북
LX세미콘 공식 인스타그램