글로벌 반도체 산업 동향 #2 – AI 반도체의 변화 양상

현재 AI 시장을 이끄는 기업은 대부분 미국 기업들이다. 이들은 거대언어모델(LLM)로 대표되는 딥러닝 기반의 트랜스포머 알고리즘을 자체 구축하고, 이를 구현할 수 있는 칩을 설계도 할 수 있다. 트랜스포머 기반의 파운데이션 모델은 인공 신경망 기반으로 구축되는데, 수천 억 개 이상의 파라미터 규모를 갖는 것으로 알려져 있다.

이를 효과적으로 구현하기 위해 AI 모델 개발사들은 자체적인 딥러닝 알고리즘도 개발한다. 일부 회사들은 아예 거대한 데이터를 효과적으로 빠르게 처리하기 위한 다양한 전용 시스템 도체를 자신들의 모델 맞춤형으로 설계한다.

주목할 부분은 맞춤형 AI 반도체는 설계까지만 가능하다는 것이다. AI 반도체 시장에서 여전히 범용으로 활용되는 반도체는 다름 아닌 그래픽프로세서(GPU)다. 1990년대 후반-2000년대 후반까지만 해도 GPU는 주로 게임용 고성능 그래픽처리장치로 활용되었다. 흥미롭게도 2012년 이른바 이미지 인식 경진대회에서 충격을 안겨준 알렉스넷(Alexnet), 그리고 2016년에 인간 바둑기사와의 승부에서 충격적인 성과를 보여 준 알파고(AlphaGo)가 등장하기 시작하면서 GPU에 대한 관점은 완전히 바뀌었다. 고차원 대용량 데이터를 빠르게 처리할 수 있는 딥러닝 전용 프로세서가 되었기 때문이다.

I AI 시대, GPU가 주목받는 이유

<그림 1> CPU와 GPU 비교

CPU는 왜 인공지능 반도체의 주력으로 사용되지 않을까? CPU는 단일 산술-논리 계산에 대해서라면 GPU와 비교해 훨씬 높은 정밀도로 훨씬 빠른 계산을 할 수 있다. 그렇지만 GPU가 AI 반도체로 각광받는 핵심 이유는 산술-논리 병렬 연산 능력에 있다. GPU에는 단위 개수로만 따지면 CPU보다 훨씬 많은 코어(core)가 집적된다. 그리고 병렬 연산을 각각의 코어에 분산하여 ‘한번에’ 처리한다.

이에 반해 CPU는 직렬 계산을 수행하는데, 당연히 계산 속도는 GPU의 병렬 처리에 비해 매우 느리다. 이를 비유하자면, 경력 30년의 일류 요리사가 1시간 동안 세계 최고 수준의 요리를 만들 수 있지만, 그 요리를 먹을 수 있는 고객은 겨우 10명 이내 밖에 안 되는 반면, 1년만 훈련받은 초보 요리사 100명이 1시간 동안 동시에 요리하면, 최고 요리사가 만드는 것만큼의 최고급까지는 아니더라도 먹을만한 수준의 요리를 짧은 시간 동안 1,000인분 이상 만들어낼 수 있는 것과 비슷하다. 사전에 어떻게 데이터를 분배하고 처리한 후, 다시 모을 것이냐의 순서만 잘 정해두면 단순한 곱셈/덧셈의 반복 연산은 GPU가 훨씬 빠르다.

CPU는 GPU에 비해 이런 병렬 연산이 거의 불가능한 대신, 부동소수점 자리를 더 많이 가져갈 수 있다. 즉, 정밀한 계산을 GPU의 개별 코어보다는 훨씬 더 잘할 수 있고, 따라서 정확도가 필요한 ALU 계산은 당연히 CPU가 GPU보다 훨씬 잘한다.

다만 반복된 계산은 대부분 그렇게 높은 정밀도를 요구하지 않으므로 GPU의 병렬 계산이 훨씬 유리하다. 이러한 병렬 계산은 딥러닝 같은 기계학습 알고리즘의 핵심에 있는 합성곱(convolution) 같은 행렬 계산에 더욱 유리하다. 병렬 처리의 속도를 개선하는 방법은 코어의 개수를 더 늘리거나, 코어와 코어 사이의 정보 주고받기 속도를 더 빠르게 하는 것이다. 이를 위해 메모리를 각 코어와 통합할 수도 있고, 대역폭(bandwidth)을 더 늘릴 수도 있다.

I 특정 GPU에 편중된 AI 가속기 시장

<그림 2> API 작동 방식

이렇게 대용량 AI 알고리즘에 특화된 GPU는 다른 기업도 당연히 설계할 수 있으나, AI 가속기 시장이 독점 구도로 흐르게 된 주된 이유 중 하나는 CUDA라는 전용 API가 있었기 때문이다. CUDA는 이미 GPU를 이용하여 머신러닝을 활용하는 모든 개발자나 연구자들에게는 필수재가 된 지 오래다. CUDA API를 활용하여 AI를 개발하고자 하는 사람들은 계속 특정 GPU에 의존하게 될 수밖에 없다. 이에 대항하는 대항마가 없는 것은 아니다. 예를 들어 CUDA 역할을 하는 OpenCL 같은 툴이 있다. 그러나 OpenCL은 CUDA 진영에 비해서는 여전히 커뮤니티가 작고, 공유되는 리소스가 적다. CUDA가 구축한 생태계는 반면 훨씬 강력하고, 점점 AI 반도체 설계와 제조에 있어 위력을 발휘하고 있다.

I GPU 의존을 낮추기 위한 다양한 노력들

<그림 3> AI 반도체 시장의 새로운 흐름

AI 반도체 칩의 수요는 일명 하이퍼 스케일러(Hyper scaler)로 불리는 클라우드 서비스 대기업이 주도하고 있다. 이로 인해 특정 업체가 지배하는 AI 반도체 시장 구도는 독점적이다. 그러나 압도적인 AI 반도체 지배력이 계속될 것이라 단정하기는 이르다. 그 이유는 무엇보다도 하이퍼 스케일러들이 특정 칩에 대한 과한 의존도를 완화하기 위해 자체 데이터서버용 AI 칩을 개발할 가능성이 높기 때문이다.

특히 인공지능 모델 개발사들이 향후 몇 년 이내로 더욱 시장이 확장될 엣지 AI(Edge AI) 솔루션 시장도 노리고 있는데, 이를 위해 저전력 추론에 특화된 온-디바이스 AI 제품으로 인공지능 반도체 시장이 다변화될 것이다. 학습이 중요한 AI 데이터 서버 시장에서도 GPU 의존도를 탈피하기 위해 신경망학습에 특화된 맞춤형 칩인 NPU 시장이 고속 성장할 것으로 보인다.

한국의 AI 서비스 업체들의 전략은 세부 영역에 따라 맞춤형으로 수립될 필요가 있다. 대형 IT 업체들은 자체 AI 파운데이션 모델 개발과 그 모델에 기반한 소비자 맞춤형 AI 서비스에 대해 GPU만 사용할 필요는 없다. 예를 들어 LLM 모델 전용으로 ASIC 칩, 즉, LPU를 개발하려는 AI 반도체 설계 팹리스 업체들은 HBM이 아니라 LPDDR 기반의 메모리 확장 전략을 취한다.

LPU 팹리스 업체들이 추구하는 LPDDR은 HBM에 비해 대역폭의 한계가 있으나, 이들의 전략은 이를 모델 경량화(pruning과 양자화) 방식으로 우회한다. 경량화된 모델은 LPDDR의 메모리 속도 개선 및 메모리-코어 간 연결을 강화하여 극복할 수 있다. 추론 AI 서비스는 클라우드 서버의 데이터 흐름 관리에 특화된 메모리 컨트롤러 기술과 더불어, 멀티모달 데이터 전송에 특화된 네트워크 기술도 중요하다. 이를 위해 이러한 기능이 집약된 칩렛 패키징Chiplet packaging 같은 이종접합 패키징(Heterogeneous Integration) 기술이 중요하다.

I GPU 전력 소모 문제의 대안 : ASIC 기반 AI 반도체

<그림 4> GPU와 TPU의 작동 방식 차이

인공지능 파운데이션 모델에 특화된 서버용 AI 반도체 시장은 NPU 혹은 TPU같은 비 GPU 시스템 반도체를 앞으로 더 많이 채용할 가능성이 높아진다. 사실 TPU 같은 가속기는 비록 범용으로 사용될 수 있는 GPU보다는 적용 범위가 좁다. 그렇지만 특정 목적을 위해서라면 범용 GPU보다 더 빠르게 더 저전력으로 연산 가속이 가능하다.

그림 4에 보인 것처럼 GPU가 행렬 곱하기 연산을 할 때 연결된 코어들을 활용하는 반면, TPU는 코어 하나하나에 행렬 성분을 미리 분배하여 곱하기 연산을 가속하는 방식은 GPU와 TPU의 차이가 왜 생기는지를 보여준다. 산업용 AI 모델을 개발하거나 그에 적합한 경량화 AI 반도체는 모델-칩 동시 최적화가 필요하다. GPU는 성능 강화를 위해 점점 소요 전력이 급증한다는 문제가 있으므로, 시간이 지날수록 학습형 AI 반도체는 물론, 서비스용 추론형 AI 반도체 시장은 점점 저전력 ASIC 기반으로 무게중심이 옮겨갈 수 있다.

다만 ASIC 기반의 칩들도 연산량이 늘어나면 메모리에 대한 의존도는 더 높아질 수밖에 없다. HBM 의존도를 낮추면서도 메모리 의존도를 해결하기 HBM을 대체할 수 있는 범용 메모리반도체 자체의 성능 향상이 필요하다.

I AI 칩 다변화와 첨단 패키징 기술 부상

<그림 5> 온디바이스 AI 시장과 패키징 기술 중요성 확대

현재의 AI 시장은 점점 무겁고 파라미터 공간 크기가 커진 LLM 같은 알고리즘을 구현할 수 있는 전용 가속기를 요구한다. 기본적으로 수천 억 개 이상의 파라미터 세트를 갖는 LLM의 신경망 학습은 GPU 한 장만으로는 감당하기 어렵다. 그래서 수백-수천, 심지어 수만 장의 GPU가 집적된 서버에 대한 수요도 늘어난다.

다만 현재 시장은 수요가 공급을 초과하고 있는 상황이기 때문에, GPU 서버 가격은 공급자가 주도한다. GPU 시장을 독점하는 업체의 매출과 수익도 2026년까지 각각 3,000억 달러와 1,300억 달러 이상으로 치솟을 것으로 전망되는데, 특히 수익은 2023년 대비 5배 이상 높아지는 수준에 이를 전망이다.

대형 AI 가속기 시장만 노리는 것이 아니라, 경량화된 AI 전용, 즉, 온디바이스(on-device AI) 전용 소형화된 저전력으로 구동 가능한 칩도 시장이 형성되고 있다. 특히 온디바이스 AI 전용 칩은 경량화 AI 모델은 물론, 일부 생성이나 추론에도 특화된 기능을 염두에 두고 있기 때문에 스마트 기기 같은 소비자 기기 시장이 성장할 것이 예상된다.

그러나 GPU 설계 업체는 칩 제조 자체를 하지는 않는다. 칩 제조는 전문 파운드리에 맡겨야 하지만, 그 요구를 감당할 파운드리는 제한적이다. GPU 같은 AI 가속기 제조에서 가장 중요한 점은 안정적인 수율로 고객이 설계한 고성능 연산기 맞춤형 시스템 반도체를 꾸준히 양산할 수 있는 능력이다. GPU 칩의 경우 높은 트랜지스터 밀도를 요구하기 때문에 가장 앞선 초미세 공정 기술이 필요하다. 팹리스-파운드리 관계에서 특정 파운드리 의존도가 너무 높아지는 것은 팹리스 업체들에게 불리한 요소가 될 수 있다. 최근 불거지는 지정학적 문제, 천문학적으로 치솟는 파운드리 업체의 CAPEX가 원가에 반영되는 구조적 문제 등이 점점 고조될 가능성이 높기 때문이다.

제조 의존도를 낮추면서도 시장 다변화로 불확실성에 대비한다는 차원에서, AI 가속기-반도체 팹리스 업체들은 다양한 분야의 산업 자동화 시장도 노린다. 특히 주목할 부분은 기존 제조 공정 의존도가 주로 파운드리의 전공정에 있었던 반면, 앞으로는 원가 절감 및 산업 자동화에 특화된 고성능 칩 제조의 무게중심은 후공정, 즉, 패키징 공정으로 옮겨갈 수 있다는 것이다. 이를 위해 여러 종류의 이종 칩들, 즉, 칩렛(chiplet)을 한 다이(die)에 집적해야 할 수 있게 하기 위해서라도 AI가 더 적극 활용될 것으로 예상된다.

I 폰 노이만 구조에서 메모리 반도체의 한계

<그림 6> 폰 노이만 구조

메모리반도체 역시 AI 반도체에서 핵심 기술 병목이다. AI 가속기의 산술 연산 속도가 아무리 빨라져도, 메모리 뱅크에서 데이터를 꺼내 오고 처리된 데이터를 다시 메모리뱅크로 보내는 속도는 훨씬 느리기 때문이다. 메모리 속도를 결정하는 것은 메모리의 대역폭(bandwidth)이다. 글로벌 메모리 메이커 중에서 고대역폭 메모리High bandwidth memory (HBM)을 양산하는 업체는 소수다.

왜 AI 반도체에서는 기존의 DDR 같은 DRAM이 아니라, HBM 같은 맞춤형 메모리가 필요할까? 이를 이해하기 위해서는 메모리 장벽(Memory wall)이라는 개념 이해가 필요하다. 현대 컴퓨터의 기본 구조는 폰 노이만(von Neumann)이 제안한 구조를 따른다. 그 핵심은 계산을 담당하는 부분과 계산을 해야 하는 데이터 혹은 계산한 데이터를 저장하는 부분을 물리적으로 분리하는 것이다. 계산 담당 부분은 주로 논리 혹은 산술 계산 담당 유닛(이를 통틀어 ALU(arithmetic logic unit)라고 부른다.) 이라고 칭하고, 데이터를 저장하고 입출력을 담당하는 유닛은 메모리라고 부른다.

I AI 연산에 최적화된 메모리 반도체의 필요성

<그림 7> 로직 반도체와 메모리 반도체의 시대에 따른 성능 발달 비교표

데이터의 저장과 주고받기 난도가 데이터를 직접 계산하는 것보다는 낮으니, 작업 속도도 그만큼 빠를 것처럼 생각된다. 그렇지만 사정은 정반대다. ALU의 기본 작동 방식은 아주 작은 전기 스위치라고 볼 수 있는 트랜지스터의 스위치 on/off state를 각각 0과 1에 배분하여, 디지털(2진수) 신호로 들어오는 전기적 정보들을 연산하는 것이다. 따라서 계산 속도는 얼마나 많은 트랜지스터가 얼마나 빨리 동작하느냐에 거의 선형으로 비례한다. 비유하자면 택배를 모아 처리하는 택배 센터의 성능은 얼마나 많은 택배 분류자들이 얼마나 빠르게 택배를 바코드 리더로 태깅하는지에 달린 것과 같다.

반면 메모리 사정은 좀 다르다. 데이터 저장은 디지털 신호 읽기/쓰기에만 그치는 것이 아니다. 마치 엄청난 택배 물품을 잔뜩 싣고 온 거대한 트럭이 거대한 건물의 우편함을 일일이 찾아다니며 택배를 배달하는 것을 생각하면 된다. 택배 개수가 비교적 적다면 배송 시간은 앞서 언급한 태깅 시간과 큰 차이 안 나겠지만, 택배량이 많을수록 그 격차는 점점 벌어진다.

빠른 정보 처리, 읽고 쓰기 속도가 가능해진 이유는 ALU가 충분히 빨라져서이기도 하지만, 메모리도 빨라졌기 때문이다. 그러나 ALU와 메모리는 원리 상 시간이 지남에 따라 속도 격차가 벌어진다. 그림 7에 보인 바와 같이 1995년 기준 ALU의 동작 속도(단위는 FLOPS로 표기한다.)는 지난 25년 간 대략 20만 배 정도 증가했다. 이는 대략 2년마다 3배 이상씩 증가한 것에 해당한다.

반면 DRAM 속도는 상대적으로 느렸다. 1995년에 비해 메모리 속도(메모리반도체 속도 단위는 대역폭(bandwidth)으로 표기한다.) 40배, 즉, 2년마다 1.4배 정도 증가에 그쳤다. 그래서 ALU와 메모리의 속도 격차는 시간이 지날수록 벌어진다. 로직 반도체와 메모리 속도 격차는 10년이 지나면 2,000-3,000배로, 20년이 지나면 8-9백만 배로, 30년이 지나면 20억 배 이상으로 벌어진다.

이로 인해 CPU나 GPU 코어 같은 ALU가 연산 속도 클럭을 계속 높일 수 있다고 하더라도 결국 컴퓨팅 체감 속도는 메모리에서의 병목 현상으로 인해 메모리가 지배하게 된다.


[LX세미콘 소식 바로가기]

LX세미콘 공식 뉴스룸

👉news.lxsemicon.com

LX세미콘 공식 블로그

👉blog.naver.com/lxsemicon

LX세미콘 공식 유튜브

👉youtube.com/@LX_Semicon

LX세미콘 공식 페이스북

👉facebook.com/LXSemicon

LX세미콘 공식 인스타그램

👉instagram.com/lxsemicon/

연관 콘텐츠

글로벌 반도체 산업 동향 #2 – AI 반도체의 변화 양상

현재 AI 시장을 이끄는 기업은 대부분 미국 기업들이다. 이들은 거대언어모델(LLM)로 대표되는 딥러닝 기반의 트랜스포머 알고리즘을 자체 구축하고, 이를 구현할 수 있는 칩을 설계도 할 수 있다. 트랜스포머 기반의 파운데이션 모델은 인공 신경망 기반으로 구축되는데, 수천 억 개 이상의 파라미터 규모를 갖는 것으로 알려져 있다. 이를 효과적으로 구현하기 위해 AI 모델 개발사들은 자체적인 딥러닝 알고리즘도 개발한다. […]

[반도챗GPT] 메모리 반도체 vs 시스템 반도체 차이 간단 정리

요즘 반도체 관련 뉴스를 보다 보면 자주 등장하는 두 단어! 바로 ‘메모리 반도체’와 ‘시스템 반도체’인데요. 이름은 많이 들어본 것 같은데 둘의 차이가 정확히 무엇인지 궁금했던 분들도 계실 거예요. 오늘은 메모리 반도체와 시스템 반도체가 전자기기 안에서 각각 어떤 역할을 하는지 쉽고 간단하게 알려 드릴게요! 📌메모리 반도체 vs 시스템 반도체 간단 요약 1️⃣메모리 반도체 : 데이터를 저장하고 기억하는 […]

[반도체 페이크 뉴스] 우리가 몰랐던 DDI의 역할? 전세계 디스플레이가 멈춘 이유

📰“인터넷 강의 전면 중단…잠실서 10만 규모 초대형 수업 시작”⠀디스플레이 화면을 구동해 주는OOO가 없다면 벌어질지도 모를 일 #반도체 #페이크뉴스 ⠀‘이 반도체’가 사라진 세상이 궁금하다면,지금 영상을 확인해 보세요✅ [디스플레이 구동 칩, Display Driver IC] 📺DDI이미지 신호를 받아 디스플레이픽셀을 제어하고 화면 구현 ➡️픽셀을 하나하나 컨트롤해 영상을구현 해주는 DDI가 없다면 디스플레이는음성만 나오는 ‘라디오’가 될 수도? [LX세미콘 소식 바로가기] LX세미콘 […]

Semicon人Us 뉴스레터
구독 신청

LX세미콘 뉴스채널 Semicon人Us의 다양한 소식을 메일로 받아보세요.

LX세미콘 뉴스채널 Semicon人Us의
다양한 소식을 메일로 받아보세요.

주식회사 LX세미콘은 Semicon人Us 뉴스레터 발송을 위하여 다음과 같이 귀하의 개인정보를 수집•이용 및 위탁하고자 합니다.

 

1. 개인정보의 수집•이용에 대한 고지
1) 수집하는 개인정보 항목
– 이메일, 뉴스레터 수신•개봉 기록
2) 개인정보 수집•이용 목적
– LX세미콘 뉴스레터 발송, 이벤트 등 광고성 정보 전달
3) 개인정보 보유 및 이용 기간
– 수신거부 시점까지 보관•활용하며 수집 및 이용 목적이 달성된 후 또는 이용자의 동의 철회 요구 시에는 해당 정보를 지체 없이 파기합니다.

※ 고객님께서 개인정보의 수집•이용에 동의하지 않을 권리가 있으며, 미동의 시 서비스를 이용하실 수 없습니다.

 

2. 개인정보의 취급위탁에 대한 고지
– 수탁자 : 시너지에이앤씨
– 위탁하는 업무의 내용 : LX세미콘 Semicon人Us 뉴스레터 발송 및 발송을 위한 시스템 개발/유지보수
– 위탁 기간 : 위탁계약 종료 혹은 Semicon人Us 뉴스레터 발송 서비스 종료 시점까지

※ 고객님께서 개인정보의 취급위탁에 동의하지 않을 권리가 있으며, 미동의 시 서비스를 이용하실 수 없습니다.

 

3. 이용 제한 대상
– 만 14세 미만은 Semicon人Us 뉴스레터 구독 서비스를 이용할 수 없습니다.

[mailpoet_form id="1"]