[Two Cents #60] Generative AI — "LLaMA Moment"와 LLM 시장 구조에 대하여
2023년 들어서도 Gen AI 분야의 큰 변화는 멈추지 않고 계속되고 있습니다.
특히 2023년에는 제가 [Two Cents #58]에서 “2세대 모델”이라고 부른 것의 단초가 될만한 변화들이 보이기 시작했습니다. 이는 기존에 우리가 알고 있는 moat, 성공 방정식을 근본적으로 바꿀 잠재력이 있다고 판단됩니다. 이제 3-4회에 걸쳐 Two Cents에서 이 이야기를 해 보려고 합니다.
그 첫 번째 이야기는 LLM 시장의 구조 변화에 대한 생각입니다.
“LLaMA Moment”
‘23년 상반기에 일어난 가장 큰 변화는 Meta의 LLaMA 모델 발표, 그리고 그 뒤에 이어 일어난 ‘LLM explosion’이라고 본다. (’22년 Gen AI의 시작점이 된 “Stable Diffusion Moment”와 비견할 만한, 하지만 그 실제 영향은 훨씬 더 큰) 소위 “LLaMA Moment”라고 부를만 하다고 본다.
실제 일어난 일을 간단히 복기해 보면:
2월24일 Meta의 LLaMA LLM이 발표되었다. 7B, 33B, 65B 모델를 각각 1T 및 1.4T의 데이터셋으로 학습하였다. 오픈소스이긴 하지만 GNU GPL 3.0 라이센스로서 상용으로는 사용할 수 없고, 학습결과물인 모델 weight는 비공개로 Meta에 허가를 받아야 사용할 수 있는 구조이다.
그런데, 3월8일 누군가에 의해 LLaMA model weight가 유출되었고, 그 weight data가 BitTorrent를 통해 공유되기 시작했다.
그 이후 아주 재미있는 일이 일어나기 시작했는데, 이 유출된 model weight 기반으로 다양한 LLM들이 속속 등장하기 시작했다.
하나의 흐름은, LLaMA의 model weight 기반으로 추가 fine-tuning한 모델이 속속 등장하였다. Alpaca, Vicuna, Koala 모델이 각각의 특징을 가지고 LLaMA 보다 나은, 그리고 일부는 GPT-3보다도 나은 성능을 주장하면서 등장했다.
이후, 상업적 이용을 할 수 없는 LLaMA를 상업적 이용이 가능한 full open-source 버젼으로 새로 구현한 모델들이 속속 등장하였다. Databricks Dolly (4.12), StabilityAI StableLM (4.19), MosaicML MPT-7B (5.5), Together RedPajama (6.6), TII Falcon (6.9) 등. (괄호 안은 발표 일자) 대부분 7B 모델에서 시작하여서 이후 최대 65B까지 확장된 모델을 발표하는 방식이다.
또 하나 등장한 아주 새로운 흐름은, LLaMA를 C++로 다시 구현하고 이를 4-bit, 8-bit로 quantization하여 아주 가볍게 만든 모델(llama.cpp)이 등장하였고, 이를 GPU 아닌 edge device에서 돌리기 (inference) 시작하였다. 처음에는 맥북 M1 Pro에서 시작하여 맥북 M1, Pixel 6 phone, Raspberry Pi에까지. (TMI이기는 하지만, llama.cpp를 처음 만든 개발자는 이 것으로 새 회사 ggml.ai를 창업하였다)
이 과정에서 몇 가지 주목할 점은:
(7B ~ 65B) 규모의 (SOTA 보다 1-2단계 작은 규모의) LLM에서 (Big Tech을 제외한) 수많은 플레이어가 LLM 개발 경쟁에 참여하기 시작하였고, 이 추세가 시간이 지나면서 더 가속화되고 있다는 점. 여기에는 LLM 코드 뿐 아니라, 기존의 LAION, The Pile 등의 오픈소스 dataset 외에 Together RedPajama 등의 오픈소스 dataset이 새로 참여하기 시작하였다.
LM 학습이 끝난 후 inference 단계에서 (GPU가 없는) edge device에서 돌아가기 시작하였다는 점 (나는 이 부류의 LM을 “Personal LM”이라고 부른다)
이제 LLM 시장은, (현재 기준 100B 이상 규모의) 대규모 LLM (나는 이 부류의 SOTA LLM을 “VLLM (Very-Large Language Model)”이라고 구분해서 부르는 게 좋다고 본다), 오픈 소스 경쟁이 치열하게 벌어지고 있는 중규모 LLM, 학습이 끝난 후 inference 단계에서 (GPU가 없는) edge device에서 돌아가기 시작한 Personal LM, 세 부류로 구분되기 시작하고 이에 따른 시장 재편이 되고 있다고 본다.
[MESSAGE FROM SPONSOR]
[AI 트렌드 세미나 #3] Generative AI — 새로 열린 '큰 기회', 혹은 '어쩌면 더 큰 위협'
“생성 AI의 해”라 할만 한 2022년이 지나고, 2023년에도 놀랄만한 변화가 계속되고 있습니다. 특히 2023년에는 제가 [Two Cents #58]에서 “2세대 모델”이라고 부른 것의 단초가 될만한 변화들이 보이기 시작했습니다.
당연히 이런 큰 변화는 기존 비즈니스, 새 스타트업 모두에게 아주 큰 ‘기회’가 되면서, 동시에 어쩌면 ‘더 큰 위협’이 될 수도 있습니다.
이 AI 트렌드 세미나에서는 이 이야기를 해 보려고 합니다.
주제: Generative AI — 새로 열린 '큰 기회', 혹은 '어쩌면 더 큰 위협'
AI와 다시 열린 “서부 개척 시대”
기존 비즈니스, 스타트업에게는 어떤 큰 ‘기회’가?
어쩌면 ‘더 큰 위협도’?
몇 가지 suggestions
LLM 시장 구조의 변화
위에서 설명하였듯이, 이제 LLM 시장은 “VLLM” — 중규모 LLM — “Personal LM”의 세 부류로 재편되고 있다.
통상 100B 규모 이상의) VLLM 경쟁은 이제 Big Tech 간의 “그들만의 리그”로 재편되었다고 본다.
현재의 GPU 시장가격 및 Chinchilla scaling law 기준으로 GPT-3 수준의 LLM 학습에 (epoch 당) $10m, 1T 파라미터 LLM 학습에 (epoche당) $300m의 비용이 소요되는 것을 고려하면, 이제 VLLM 시장에 신규 진입할 수 있는 업체는 Big Tech를 제외하고는 거의 없다고 판단된다.
아직 LLM 규모의 확대 추세가 끝나지 않았다는 점을 고려하면 (OpenAI는 GPT-5 개발을 하고 있지 않다고 발표하였지만, Sam Altman은 “아직 (AGI를 달성하기 위한) LLM 규모 확대 추세가 끝나지 않았고, 다만 그 속도가 연간 5-10배 성장에서 2-3배 성장으로 느려졌을 뿐”이라고 함), 아직 1T ~ 50T 파라미터 규모의 SOTA LLM 개발 경쟁은 향후 5-10년간 지속될 것으로 본다. 최대 어디까지 커질지는 아직 예상하기 어렵지만 (학습 비용, 학습 데이터 가용성 등을 고려하면) 1T 및 10T가 중요한 고비가 될 것으로 보이며, 현실적으로 10T 이상의 모델은 가용한 학습 데이터 부족으로 가능성이 높아 보이지는 않는다. (참고로, 인간의 뇌 Synapse 수는 약 600T로 최대 600T LLM 규모에 해당한다고 본다)
반면, (VLLM 보다 1-2단계 작은 규모의) 중규모 LLM 시장은, 진입 장벽도 그리 높지 않고 (MosaicML은 GPT-3 규모 학습에 $500k 정도로 가능하다고 봄), 다양한 시장 요인 (1. GPT-3/4 API 비용이 자체 LM inference를 운용하는 것 대비 상당히 높은 점, 2. 기업 및 서비스 사업자가 data privacy, 비용 등의 이유로 독자 LLM을 운용하고자 하는 니즈가 큰 점, 3. 특정 목적을 위해서는 충분한 학습 데이터 및 fine-tuning이 제공되면 (7B 정도의) 아주 작은 모델로도 충분한 성능을 낼 수도 있는 점 등)을 고려하면, 향후 3-5년 간 아주 치열한 시장 경쟁이 일어날 ‘전장’이 될 것으로 판단된다.
대략 SOTA 대비 1-2단계 작은 중규모 LM 중심으로 향후 5년간 시장에서 치열한 경쟁이 진행될 것이고, (Moore’s Law 기반으로) 아주 단순하게 추정하자면 5년 후에는 ‘GPT-6’ 수준의 LLM이 commodity화하여 기업.서비스 사업자가 자체 LLM으로 운영이 가능할 것이고, 이 LLM이 기업, 서비스 사업자 니즈의 90% 이상을 충족할 수 있을 것으로 본다.
Personal LM이 edge device에서 돌아가기 시작하면, 각 개인별로 노트북, 핸드폰, 심지어 집안의 냉장고 등의 가전 기기까지 모두 독자적으로 LM 운용이 가능해진다는 의미가 된다. 역시 아주 단순하게 (Moore’s Law 기반으로) 추정해 보자면 5년 후에는 ‘GPT-4’ 수준의 Personal LM이 각 사용자의 personal device (맥북, 아이폰, Visual Pro 등)에서 사용 가능할 것이다.
이러한 Personal LM 환경에서 어떤 새로운 서비스가 가능해질지는 현재로서는 가늠하기 어렵고 전적으로 상상력에 달려 있다고 본다. 아주 쉽게 상상되는 모습은, 5년 후 아이폰 (혹은 이를 대체할 (Vision Pro 같은) 새로운 personal device)에 ‘GPT-4’ 급의 LM이 내장되어 있고, 이 LM Agent가 (Siri 혹은 영화 Her의 Samantha 같이) 나의 개인 데이터로 개인화되어 나와의 대화 혹은 스스로은 판단으로 나의 ‘의도 (intent)’를 이해하고, (역시 나의 개인 데이터로 personalize된) 클라우드에 있는 또 다른 100개 혹은 1,000개의 agent가 (아래에 설명하는 Autonomous Agent 같이) Siri/Samantha의 조정에 의해 이를 실행하는 형태가 될 수 있다.
이러한 환경이 되면, 어떤 서비스가 가능하고 어떤 비즈니스 기회가 있을지는 지금으로서는 상상하기 아주 어렵고, [Two Cents #58]에서 정의한 “2세대 모델”에 해당하는 완전히 새로운 모델과 이에 기반한 생태계가 만들어질거라 본다.
이러한 시장 구조의 변화는 어떤 ‘기회’와 ‘위협’을 줄까?
[To be continued]