[Two Cents #78] “Flights of Thought” on Consumer + AI — Part 4: GPT-5
Consumer AI에 대한 ‘시장의 준비’가 tipping point를 넘어 가고 있는 것으로 보인다.
지금 필요한 일은, AI 기술에 의한 시장 변화가 어떤 방향, 어떤 방식으로 일어나고 그 것이 (산업 및 시장의 구조, 시장 참여자 간의 구도 및 economics 구조 등에) 어떤 영향을 가져 올 지에 대하여 최대한 구체적으로 예상, 예측해 보고,
그 과정에서 예상 가능한 기회를 조금이라도 먼저 찾고 시작하고 (스타트업 입장에서), 마찬가지로 이렇게 시작한 기회를 먼저 인지하고 이를 지원하는 (투자자 입장에서) 것이 필요하다고 본다.
이 흐름과 과정에서 일어날 다양한 ‘것’들, 관련된 아이디어들에 대한 나의 생각의 흐름 (”Flights of Thought”)을 공유 하려고 한다.
First thing first. GPT-5 출시로 잠시 쉬어 가 보면:
GPT-5 vs. Consumer + AI
이번 발표된 GPT-5의 벤치마크 성능, multi-shot reasoning 기반으로 한 단계 더 진보한 수준의 reasoning 결과물, ‘놀라운’ 수준의 one-shot coding 능력 등에 대해서는 여러 곳에서 깊이 다룬 내용이 많으니 따로 다루지는 않고,
여기에서는 Consumer + AI에 영향을 줄 수 있는 몇 가지 변화에 대하여 집중해 본다.
GPT-5에서 내가 주목한 점은 아래의 2가지이다.
Mixture of Models 구조 & Model Router
Tools as ‘generalized agents’
Mixture of Models (MoM) 구조 & Model Router
MoE vs. MoM
GPT-4에서는, LLM 규모가 커지면서 성능이 증가한 점도 있지만 이 측면은 상대적으로 incremental improvement라고 보며, GPT-4의 가장 큰 기여는 Mixture of Experts (MoE) 개념이 보편화되기 시작한 출발점이라고 본다.
MoE 구조는, 구조적으로 각 ‘expert’간 역량 차이가 크지 않고 분야별로 특화되어 역할 분담함으로써, 각 ‘expert’는 집중하는 domain 차이 외에는 그 구조에 큰 차이가 없는 (동일한 구조의) sub-system 성격을 띈다. 그래서, MoE 구조에서 Router 기능의 핵심은 (꼭 필요한 sub-system ‘expert’들만 부분적으로 동작시킴으로써) inference 비용 및 사용자 반응 시간 (latency) 개선을 위한 engineering optimization이다. 즉, GPT-4 기술의 핵심을 engineering optimization으로 본다는 의미이다.
이에 비해 GPT-5 Mixture of Models (MoM) 구조는, 각 ‘model’이 크기, 역량이 다른 각각 독자적으로 동작할 수 있는 sub-model들의 집합체이며, MoM Router 기능의 핵심은 필요한 inference의 depth에 대한 판단에 따라 각각 다른 sub-model들에게 일을 맡기고, 그 결과에 보고 판단해서 필요하면 같은 혹은 다른 sub-model에게 추가로 일을 맡기는 orchestration 역할이다. 그래서, MoM 구조에서 Router 기능의 핵심은 문제 해결에 필요한 LLM 간의 역할 분담 및 워크플로우를 판단하고 실행을 맡기는 ‘orchestration’ 역할이라고 본다.
(아래의 Claude-4 Opus와 비교에서 보듯이 GPT-5의 내부 처리 과정은 기본적으로 ‘multi-shot’으로서 각 thinking단계 별로 orchestration이 가능한 구조이다)
Router as ‘orchestrator’
이는 multi-agent 시스템에서 주어진 task를 나누어서 서로 다른 agent에게 맡기고 그 결과를 모으고, 필요하면 또 다른 agent에게 더 일을 맡기고 그 결과를 모으는 과정을 반복하는 과정와 기본적으로 같은 구조이다. 즉 MoM Router 구조는, 다양한 크기, 기능, 역량, 능력치를 가지는 다양한 model들 간에 역할을 나누고 취합해서 원하는 결과를 만들어 내는 (어쩌면 현재의 agentic workflow orchestration framework을 일반화한) 구조라고 볼 수 있다.
이를 더 일반화하면, 앞으로도 당분간 지속적으로 더 등장할 다양한 크기, 특성, 성능의 수많은 LLM들을 orchestrate하여 사용자 (특히 소비자)들에게 serving하는 기본 형식, UI/UX를 (그리고, 그 economics까지) 새롭게 정의한 것이라고 볼 수 있다.
즉, small/large (sLLM vs. SOTA), MoE or not, reasoning or not, on-device/cloud-based 등 다양한 다른 특성을 가지는 수많은 LLM들이 (목적, 환경, 용도 등에 맞게) 합종연횡하는 다양한 구조로서 전체 LLM 시스템을 구성할 수 있고 (Mixture of Models), 이에 대한 ‘single point of entry’ ‘unified UI/UX 접점’으로서의 역할을 Model Router가 담당하게 되었다는 의미이다.
(실제로 5 기반 ChatGPT를 사용해 보면, 현재는 내가 원하는 수준보다 ‘과도하게’ reasoning을 많이 하는 경향을 보인다. 그래서, Google AI Overview 수준의 간단한 웹 검색 및 요약 수준이면 충분한 작업에 대하여 Python code까지 생성하면서 ‘오버’하여 열심히 문제를 해결하려는 경우까지 있다. 신입 사원에게 간단한 자료 찾아 오라고 요청하였는데, 열정이 넘쳐서 30페이지 in-depth 보고서를 밤새 작성해서 가져온 듯한^^)
GPT-5 Model Router의 이러한 구조와 역할을 보면, (1) 현재의 5 기반 ChatGPT에서 (LLM의 creativity 수준 temperature 설정과 비슷한) reasoning 수준 조절을 위한 ‘reasoning temperature’ 설정이 필요할 듯 하고, (2) (개발자에게는 GPT-5의 각 개별 모델에 대한 API 접근이 가능하기 때문에) 조만간 GPT-5의 Model Router 역할을 대체할 수 있는 ChatGPT의 대체 UX가 등장할 듯 하다. (2023년 Llama가 leak된 후 몇 주 만에 Vicuna, Alpaca 등의 fine-tuning 모델이 폭발적으로 등장한 것의 deja vu?) (3) 좀 더 욕심을 내자면, 나의 ‘요청’에 대하여 그 ‘의도’를 읽고 각각 다른 model에게 일을 맡기는 ‘개인화’가 가능하면 더 좋겠다. 이러한 ‘개인화’는 경쟁 혹은 OSS Model Router가 등장하고 경쟁이 본격화되면 머지않아 다양한 대안이 등장할 것으로 본다.
‘AI super app’
이러한 변화를 좀 다른 UI/UX 시각에서 보면 “ChatGPT 혹은 Model Router가 ‘AI super app’으로 한발 더 가까이 갔다’고 볼 수도 있다.
이제 ChatGPT 앱을 열어서 모든 LLM 모델 리스트가 사라지고 GPT-5 하나만 남아 있는 것을 보면, 그리고 조만간 ‘GPT-5’ 선택 옵션도 사라지고 뒤에 어떤 모델이 있는지 소비자가 더 이상 신경쓰지 않는 형태를 상상해 보면, 소비자 시각에서 ‘AI super app’의 의미가 확 와 닿는 것을 느끼게 된다.
여기에서 좀 더 상상의 나래를 펼치면,
시나리오 1:
(현재 아이폰, Siri 등) 기존의 주된 소비자 UI/UX 접점을 뛰어넘어/건너뛰어 ChatGPT가 소비자 device의 주된 UI/UX 접점이 될 수 있다면, 이 것이 ‘AI super app’ 혹은 ‘AI super device (aka ‘iPhone of AI age’)’가 될 것이라고 본다.
예를 들어, (1) 현재에도 아이폰 Action button을 통해서 Siri를 bypass하고 소비자의 default chatbot Assistant가 될 수 있다고 보고, (2) 향후 (Jony Ive의) 새 AI device를 통해서 소비자가 (’아이폰’을 bypass하여) 늘 ChatGPT와 연결되어 있고 언제나 (음성으로) ChatGPT input 접근이 가능하고, (3) 그 input에 대한 output은 (앞으로 당분간은 소비자의 주된 UI 접점으로 남아 있을) ‘아이폰’ 화면, 내지는 ‘집안의 전신 거울 혹은 거실의 TV’, ‘집안/자동차에 설치된 ambient speakers’ 등 다양한 output device 옵션을 활용할 수 있다면.
시나리오 2: (좀 더 wild한 상상의 나래를 펼쳐 보면)
아직까지 시장에 등장하지 않았지만, 나는 조만간 “각 개인의 personal data” (일정, 연락처, 이메일, 건강 데이터, 가족 연결 데이터 등) 기반으로 fine-tuned된 "‘personalized LLM’이 등장할 수 있다고 예상한다.
더 상상해 보면, 이러한 ‘personalized LLM’도 하나에 그치지 않고, 영역별로 (개인, 가족, 업무(회사/직업을 바꾸게 되면 그에 따라 또 새롭게 만들어질 수 있는) 등) 나만의 personalized LLM이 여러 개 공존할 수도 있을 것이다.
(기술적으로는 큰 장벽이 있지는 않아 보이고, 비용도 시간 문제로 각 개인이 afford할 수 있는 수준으로 내려 올 것으로 예상된다. 오히려 가장 큰 bottleneck은 각 개인의 데이터를 어떻게 모으고 이에 대하여 각 개인이 소유권/주도권을 주장할 수 있을지가 될 듯 하다. 특히 아이폰 건강 데이터, Spotify playlist 등과 같이 기존 웹/모바일 서비스에 파편화되고 silo되어 저장되어 있는 개인 데이터들)
즉, 나의 개인화된 데이터가 (매번 어떤 요청 (aka, LLM prompt)마다 제공되는) context data로 제공되는 수준을 넘어서, 나의 데이터에 특화된 (fine-tuned된) personalized LLM을 통하여 persistent하게 활용되는 개인화된 (AI) 환경을 만들 수 있다는 의미가 된다.
나에 특화된 이러한 personalized LLM(들)이 만들어지고 (나만의) Model Router가 이들을 access할 수 있게 되면, 진정한 나에게 특화된 LLM Model, 더 나아가서 나에게 특화된 personal Assistant가 만들어지는 것이 아닐까?
Model Router는 이렇게까지 개인화가 확장되는 시작점이 될 수 있을 듯 하다.
(이러한 hyper-personalization 주제는 다음 posting에서 좀 더 다루려고 한다.)
Further generalization
Model Router 기술은 단순히 사용자 UI/UX 접점의 ‘single point of entry’ 역할뿐 아니라, 장기적으로 “intelligence 당 비용” 최적화에도 가장 핵심 요소가 될 수 있다.
현재 구조를 extrapolate해 보면, on-device (OSS) LLM (<10B), mid-sized (100B~300B), larger-sized (300B~1T or larger), small/large reasoning model, (특수 목적의) multi-modal, world model 등의 모델까지 모두 포함하여 동시에 운용하면서, 해결하려는 문제의 성격, 난이도에 따라 ‘비용 최적화’ 방식으로 LLM으로 routing이 가능하다는 의미가 된다. (Model Router 자체는 on-device로 동작하는 sLLM이 될 수도 있을 것이다)
만일 이런 구조가 일반화 되면, (당연히 이런 Model Router 기술/방식은 OSS로 쉽게 보편화될 것이기 때문에) 그 효과는 OpenAI 뿐 아니라 다른 LLM provider, (엔터프라이즈 대상) 비즈니스 앱/서비스를 만들어 제공하는 플레이어 (현재의 RAG SI 뿐 아니라 cloud 기반 enterprise AI infra provider 등) 모두에게 적용되면서 소비자 및 엔터프라이즈 대상으로 LLM을 serving하는 기본 구조가 될 수 있고,
이는 가까운 미래 어느 시점 이후에는 더 이상 ‘이런 OO 일을 하려니 이제 OOO LLM을 써야겠다’는 생각 자체가 필요 없이 그냥 기본으로 ‘LLM 시스템’ 혹은 ‘AI 시스템’을 통해서 일을 처리하는 방식이 될 것이다. 90년대 OS가 Windows, MacOS인지에 따라, 심지어는 Mosaic, Netscape, Internet Explore 인지에 따라 호환성이 달라져서 사용할 수 있는 app, 서비스들을 이에 맞추어 선택해야 했던 시기와 비교해 보면, 그 이후 이러한 호환성을 따져야 할 필요가 없어진 것에 비유할 만하다. 내지는, 현재 웹/모바일 서비스의 back-end가 어떤 구조로 만들어져 있는지를 따지지 않고 front-end에 접속하여 사용하듯이.
조만간 어느 시점 이후 LLM 혹은 다른 AI 인프라 이용이 소비자 수준에서 ‘보편화’되면 LLM, AI 용어이라는 자체도 사라질 것이다. 우리가 ‘전기’, ‘인터넷 한다’ 용어를 일상 생활에서 더 이상 사용하지 않듯이.
Tools as ‘generalized agents’
GPT-5에서의 tool calling은 아래의 특징을 가진다.
free-form function calling: CFG (context-free grammars) 기반
parallel tool calling
Free-form function call은 완전히 새로운 개념은 아니고, 기존 MCP Server가 request를 처리하는 방식과 기본적으로는 같은 구조이다. 즉 tool/function call의 input은 (prompt 방식의) free text이고, 이를 tool/function이 해석해서 필요한 action을 취하는 구조.
차이점으로는, MCP Server는 이를 외부 서비스/데이터 소스에 대한 API call로 변환하여 ‘one-shot’ 호출하는 상대적으로 단순한 구조이고, GPT-5에서의 function call은 이를 더 일반화한 구조이다. 즉, API call로 변화하여 호출하는 방식 외에도, 다른 tool/LLM에 대하여 (다시 prompt 형식으로) nested function call을 할 수 있고, API call 혹은 tool/function call의 결과 값을 분석하여 다시 새로운 API call 혹은 (nested) tool/function call을 추가로 하고, 등등.
이런 일반화된 tool call 구조을 보면, 이 tool/function call이 결국은 (단순히 API call을 prompt 요청으로 encapsulate한 MCP Server 방식 보다) 더 일반화된 agent sub-system에 대한 tool calling 구조를 띈다는 점을 깨닫게 된다.즉, GPT-5의 tool/function call은 (MCP 구조를 확장한) agent (sus-system)에 대한 tool calling으로 ‘일반화’되었다는 것을 의미한다.
(GPT-5 Hands-On: Welcome to the Stone Age에서 이러한 구조를 (LLM 기반) ‘tool’ 사용을 본격화 & 일반화의 시작점으로 보는, 그래서 GPT-5를 (인간의 문명을 가능하게 한 도구 사용의 시작점으로서의 ‘석기 시대’에 빗대어) AGI를 향한 ‘석기 시대’의 시작이라고 부르는 이유이다.)
GPT-5 marks the beginning of the stone age for Agents and LLMs. GPT-5 doesn’t just use tools. It thinks with them. It builds with them.
Parallel tool calling은 이러한 관찰을 더 강화하는 mechanism이다. 즉, tool calling이 여러 tool에 대하여 동시에 진행되고 그 결과를 async하게 받고 처리하기 위해서는, tool과의 연동 방식이 (기존의 deterministic한 API call 방식보다는) 수많은 agent & agent susb-system과 async & indeterministic interaction하는 방식이어야 하기 때문이다.
이 구조를 확장하여 상상의 나래를 펼쳐 보면:
이 구조를 확장하면, ChatGPT가 (위에서 언급한 구조를 통하여) 사용자 UI/UX의 ‘primary entry point’가 되고, 그 back-end로서 사용자의 다양한 요청을 처리하는 시스템은 “autonomous agent로 구성된 multi-agent 시스템”으로 (aka, agent-verse) ‘일반화’ 될 수 있다.
(기존의 MCP Server, 기존 (ChatGPT) function calling 구조는 기본적으로 ‘request-response’ 기반 UX로서, [Two Cents #76] Part 2: UI, UX에서 등장하는 다양한 사용자 interaction 방식을 다 수용하기 어려울 것이라고 보기 때문이다)
예를 들면, ChatGPT가 primary entry point로서 다양한 ‘경로’ (사용자의 직접적인 요청, 다른 agent로부터의 요청 등)을 통하여 사용자의 needs를 이해하고, 이 needs의 처리는 (예를 들면, 실제로는 more likely) Ambient Agent가 (커머스 서비스의) platform agent 혹은 (브랜드의) brand agents와 async하게 interaction하여 그 결과를 사용자에게 가지고 와서 confirmation을 받는 방식.
관련된 “소비자 행태 변화”?
이로 인한 소비자 행태의 변화는, multi-agent 기반으로 Consumer + AI가 이동하는 것에 기반한 변화가 소비자 행태 변화의 주된 추동력(driver)가 될 것으로 본다. multi-agent 방식으로 인하여 ‘시스템’과의 interaction 방식이 지금의 ‘request-response’ 방식에서 현저하게 바뀔 것이고, 소비자는 이러한 변화가 ‘가치’ (편리함, 최저가, 상품 selection 등)을 가져 오면 빠르게 적응할 것이기 때문이다.
(물론, ‘가치’를 느끼지 못 한다면 당연히 이러한 변화를 거부하겠지만. 상상해 보면, 그럴 가능성은 그리 높지 않아 보인다. 웹, 모바일 시대에 적응하기 위하여 상당히 큰 소비자의 행태 변화가 필요했음에도, 그러한 변화가 가져올 가치에 소비자가 어렵지 않게 적응하였던 것을 보면.)
이 맥락에서 GPT-5 출시의 의미는, (그 자체로서 새로운 소비자 행태 변화를 만들어 내기 보다는) ChatGPT가 소비자의 주된 UI/UX 접점으로서의 역할을 하기 위한 몇 가지 필요 요소 (Model Router, generalized tool/function calling 방식 등)을 제공하였다는 점이 가장 크고, 이제 이 것과 향후 multi-agent 시스템에 의한 변화가 결합되면 소비자 행태 변화가 본격화되지 않을까 한다.
AGI?
그럼 GPT-5는 과연 AGI라고 부를 수 있는 수준에 도달할 것일까?
OpenAI 입장에서는 Microsoft와의 계약 관계를 정리하기 위해서라도 빨리 “AGI에 도달했다”라고 선언하고 싶겠지만, LLM이 ”평균적인 인간 지능”으로서의 AGI에 도달하기 위해서 몇 가지 조건이 더 충족되어야 할 것으로 본다.
예를 들면:
시간적으로 (temporally) sync된 multi-modal
특정 이벤트에 대하여 각 modality별로 (시각, 청각, 촉각 등) 인지한 ‘것’이 ‘시간’을 기준으로 sync되어 통합 인지되고 처리되는 수준. 여기에 3D 환경에 대한 인지로서 World Model까지 포함된.
지속적인 incremental learning
한 단계 더 기대하자면, self-learning까지
이 기준으로 보면 AGI까지의 길은 아직 멀고 험난해 보인다 🙂
Epilogue
Consumer + AI 분야에 집중하는 초기 투자자로서 이러한 생각의 흐름을 공유하는 주된 목적은, 이 글을 통하여 기존 스타트업들이 AI 흐름을 잘 활용하여 어떤 새로운 기회를 찾아 낼 지, 또 새로운 창업자들이 어떤 새로운 기회를 모색하면 좋을 지 고민할 때, 그 시행착오를 줄일 수 있는 하나의 참고 자료가 되기를 바라기 때문이다.
Two Cents 나름 방식의 Call for Startup이라 할 수 있다.
이러한 기회를 찾았다고 생각하는 Consumer + AI 분야 초기 창업자/스타트업들은 언제라도 열려 있으니 DM 혹은 이메일 (hur at hanriverpartners dot com)으로 연락 주시기 바란다.