2023년 들어서도 Gen AI 분야의 큰 변화는 멈추지 않고 계속되고 있습니다.
특히 2023년에는 제가 [Two Cents #58]에서 “2세대 모델”이라고 부른 것의 단초가 될만한 변화들이 보이기 시작했습니다. 이는 기존에 우리가 알고 있는 moat, 성공 방정식을 근본적으로 바꿀 잠재력이 있다고 판단됩니다. 이제 3-4회에 걸쳐 Two Cents에서 이 이야기를 해 보려고 합니다.
그 두 번째 이야기는, ChatGPT plugin, Autonomous Agent가 가져 올 변화에 대한 생각입니다.
ChatGPT plugin
OpenAI는 3월23일 ChatGPT plugin을 발표하였다.
Plugin은 ChatGPT 내에서 API를 통하여 외부 파트너의 (초기 13개 파트너에는 Kayak, Instacart, Wolfram Alpha 등이 포함되어 있었다) 서비스를 요청하는 연결 고리이다.
예를 들면, (OpenAI Greg Brockman이 TED에서 데모하였듯이) ChatGPT에게 “오늘 저녁 OO와 훌륭한 요리를 먹고 싶은데, 메뉴 추천해줘” → “이 요리를 하기 위한 재료를 주문해줘”를 하면, Instacart plugin이 쇼핑카트에 관련 재료를 모두 담은 후 사용자가 이를 confirm하면 바로 Instacart에 주문을 하는 형태로 외부 서비스와 연동된다.
ChatGPT plugin 관련하여 주목할 포인트는:
Plugin을 통해 연결된 모든 외부 서비스는, 자신의 UX를 사용자에게 전혀 보여 주지 않고 GPT-4로 부터 받는 API call을 통한 지시를 실행하였을 뿐이라는 점
각 외부 서비스가 ChatGPT plugin을 개발하는 과정에서 실제 coding을 하지 않고, 자신의 API spec 문서 및 “이러 이러한 서비스를 만들어줘”라는 prompt를 입력하고 GPT-4가 code gen 및 integration을 마쳤다는 점
ChatGPT plugin가 발표되었을 때, 첫 반응은 “OpenAI이 드디어 AppStore를 만들었다”는 반응이었다.
하지만, 나는 plugin의 영향이 그보다 더 크다고 해석한다. 크게 2가지에 주목한다.
AI Super App의 탄생
이제 plugin을 통하여 B2C 서비스은 이제 자신의 UX를 통하지 않고 ChatGPT를 통해 유입되는 사용자에게 API를 통한 backend 서비스를 제공하는 플레이어가 되었다.
이 과정에서 자신의 backend 자산 (예: Airbnb의 숙박업소들, Instacart의 grocery 주문&배송 기능 등)은 계속 유지되고, (이미 가입되어 있거나 ChatGPT를 통해서 유입&신규 가입하는) 가입자는 계속 backend 서비스의 가입자로 남아 있지만, (유입 유도, 정교한 A/B 테스트 등의 과정을 거쳐서) 만든 front-end UX는 더 이상 쓸모가 없어졌다는 의미가 된다. (최소한 ChatGPT를 통해 유입된 사용자들에게는)
이 상황을 좀 확대해서 보면, Kayak, Expedia, Hotels.com 등 (항공권 예약, 호텔 예약 등 실제 제공되는 서비스는 다시 다른 backend 사업자 API를 통해 제공하는) 단순 intermediary는 기존 가입자 및 그들이 저장해 둔 신용카드 자산을 제외하고는 스스로의 경쟁력있는 자산이라 할만 한 게 없어졌다고 볼 수 있다.
실제로, 여행 산업 매출의 대부분을 차지하는 항공권 및 호텔 예약은 SABRE, APOLLO, AMADEUS등 5개 내외 GDS 및 10-20개 정도의 Hotel Aggregator를 통해서 (그 것도 하나의 API를 통해서 대부분의 Aggregator들이 제공하는 호텔 상품에 접근이 가능하다) 이루어지기 때문에, 항공권, 호텔 상품은 어느 사이트를 통해서 예약을 하더라도 상품의 차이가 거의 없다. 게다가, ChatGPT use case에서 보여 주듯이, 이제 여행 관련 문의가 (특정 일자의 항공편 예약보다) “10월에 9살 아들과 함께 홋카이도에 일주일 여행가려고 하는데, 일정 짜 줘”와 같은 ‘의도 (intent)’ 기반의 요청 중심으로 변화하면, 단순 intermediary의 가치는 더욱 줄어들 것이라고 본다.
Instacart, OpenTable 등은 backend에 연결된 공급자와의 직접 연결 고리, 이의 delivery를 위한 인프라 등 자산이 아직 남아 있기는 하지만.
좀 다른 시각으로 보면, 기존에 자체 앱/웹 사이트, 자체 UX, 사용자 database 등 full-fledged 서비스로 moat를 구축해 가던 B2C 서비스에게서, (ChatGPT가 API를 통해서 접근하는) backend로서의 기능을 제외한 대부분 요소들의 존재 이유를 ChatGPT가 박탈해 버렸다고 볼 수도 있다. 즉, full-fledged B2C 서비스가 순식간에 ChatGPT를 위한 (API로 접근하는) backend 서비스로 전락했다는 의미이다.
이를 확대 해석하면, (1) tangible한 고유의 moat를 확보하지 못한 단순 aggregator 형태의 B2C 서비스는 생존 자체를 위협 받게 되었고, (2) 고유의 moat를 확보한 서비스도, backend 자산을 제외하고 사용자가 유입되는 UX, 앱, 웹이 모두 ChatGPT로 대체될 위험에 빠졌다는 의미가 된다.
이제 많은 B2C 서비스들이 이제까지 확보했다고 믿는 moat가 새로 바뀌는 이 환경에서도 유지될 지에 대하여 스스로에게 솔직한 평가가 필요하다고 본다. (”Death of B2C services”)
OpenAI는 “ChatGPT 이외의 다른 B2C 서비스를 만들 의사가 없고, plugin과 경쟁하지 않을 것이다”고 천명하였고 실제로도 그 입장이 바뀌지 않을 거라고 보지만, OpenAI가 이러한 입장을 천명하였다는 사실 자체가 “plugin B2C 서비스”의 생존이 위협을 받게 되었다는 것의 반증이다.
이를 좀 다른 시각으로 해석해 보면, ChatGPT가 (내부의 mini app을 통하여 실제 서비스를 제공하는) WeChat super app과 기본적으로 같은 포지션, 즉 “AI Super App”이 되었다고 볼 수 있다. 중국인의 일상 생활의 절반 이상이 (해당 모바일 앱을 찾아 가지 않고) WeChat 내부에서 (내장된 mini app을 통하여) 충족되는 상황과 비슷해진 것이다. 우연의 일치일 수도 있지만 ‘23년 들어 OpenAi는 ai.com 도메인을 구입하였다. 일반 소비자에게는 (openai.com이 아니라) ai.com이라면 ‘AI Super App’에 한 걸은 더 가까워진 것으로 느껴질 듯 하다.
AppStore와 Super App을 굳이 비교하자면, AppStore는 app discovery 단계까지만 영향을 미치고 그 이후 단계는 각 app의 ‘깜냥’으로 남겨두지만 (매출의 30%를 수수료로 가져 가긴 하지만), Super App은 사용자가 실행 단계에서 micro-app을 선택한 이후에도 생태계 안에 머무는 기간 내내 영향력을 가지며, micro-app 접근에 대한 gatekeeping power를 끝까지 유지할 수 있어, Super App이 그 경제적 효과가 훨씬 더 크다고 본다.
Death of Programming
또 하나는, 대부분의 plugin 개발 과정이 특별한 별도 coding 과정 없이, GPT-4에 API spec 문서 + 자연어로 된 requirement를 prompt로 입력한 것만으로 끝났다는 점이다.
이를 확대 해석하면, 서비스 개발 혹은 연동을 위하여 전통적 의미의 프로그래밍이 더 이상 필요 없어진, “Death of Programming” 혹은 “English as programming language” 환경이 되었다고 볼 수 있다.
[MESSAGE FROM SPONSOR]
[AI 트렌드 세미나 #3] Generative AI — 새로 열린 '큰 기회', 혹은 '어쩌면 더 큰 위협'
“생성 AI의 해”라 할만 한 2022년이 지나고, 2023년에도 놀랄만한 변화가 계속되고 있습니다. 특히 2023년에는 제가 [Two Cents #58]에서 “2세대 모델”이라고 부른 것의 단초가 될만한 변화들이 보이기 시작했습니다.
당연히 이런 큰 변화는 기존 비즈니스, 새 스타트업 모두에게 아주 큰 ‘기회’가 되면서, 동시에 어쩌면 ‘더 큰 위협’이 될 수도 있습니다.
이 AI 트렌드 세미나에서는 이 이야기를 해 보려고 합니다.
주제: Generative AI — 새로 열린 '큰 기회', 혹은 '어쩌면 더 큰 위협'
AI와 다시 열린 “서부 개척 시대”
기존 비즈니스, 스타트업에게는 어떤 큰 ‘기회’가?
어쩌면 ‘더 큰 위협도’?
몇 가지 suggestions
Autonomous Agent
3월30일 한 게임개발사 창업자가 AutoGPT라는 아주 재미있는 실험을 공개하였고, 이를 다시 100라인 내외의 Python 코드로 아주 간단하게 새로 구현한 BabyAGI도 이어서 발표되었다.
LLM에 기반한 Autonomous Agent가 탄생하는 순간이다.
(AutoGPT, BabyAGI등) Autonomous Agent 개념의 핵심은, agent에게 원하는 Task를 부여하면 그 agent가 (사용자의 관여 없이) 독자적으로,
그 Task를 실행하는데 필요한 sub-task들을 생성하고,
각 sub-task별로 LLM을 통하여 문제 해결을 시도하고, (즉, 자연어로 ChatGPT에게 질문하고, 자연어로 나온 결과물을 분석하고)
각 sub-task가 위의 과정에서 해결되었다고 판단되면 다음 sub-task 실행으로 진행하고,
sub-task가 아직 해결되지 않았다고 판단되면, 다시 sub-sub-task들을 생성하여 해당 sub-task가 해결되었다고 판단될 때까지 실행을 진행한다.
모든 sub-task 실행이 완료되어, 전체 Task가 해결되었다고 판단될 때까지 이 과정을 반복 실행.
이때, 설정에 따라, 각 단계별로 사용자의 입력/확인을 받을 수도 있고, 사용자의 확인 없이 독자적으로 (Autonomous) 실행을 할 수도 있다.
여기에서 주목할 몇 가지 포인트는:
agent가 사용자의 관여 없이 독자적으로 판단하여 sub-task를 생성, 실행, 완료 확인 과정을 진행할 수 있고,
각 sub-task의 실행이 LLM에게 자연어 입력 및 출력을 통하여 그 완료 여부를 확인하고, 각 sub-task/agent간의 comm하는 방식도 모두 자연어에 의해 이루어진다는 점. 즉, 통상적인 프로그램 모듈 간의 comm에 필요한 API 및 JSON 데이터 형식 정의 및 이에 대한 정확한 준수가 필요없어졌다는 점이다
Autonomous Agent의 확장
애초에 이 방향으로의 첫 번째 시도는 Adept ACT-1이었고, Autonomous Agent는 이를 일반화한 방식이다. (TMI이지만, Adept는 2017년의 Transformer 모델 논문 공저자 7명 중 2명이 일찌감치 창업한 회사이다. 어떤 이유에서인지 이 2명은 다시 Adept를 떠나 새로운 회사를 창업하고 있다)
AutoGPT, BabyAGI 이후 빠르게 Autonomous Agent들이 등장하여 수십 개의 프로젝트가 진행되고 있다.
관련하여 몇 가지 주목할 만한 관련 분야 프로젝트는:
NVidia Voyager 프로젝트는 원래 Minecraft 게임 실행하는 모델을 개발하는 Minedojo 프로젝트에 agent 기능을 확장한 것이다. 여기에서 주목할 것은, 이 agent가 자신의 sub-task 실행에 필요한 code를 생성해서 사용하고 이를 asset library로 저장해 두고 이후 필요할 때 재 사용한다는 점이다. Auto Agent 구조가 한 단계 발전한 것이라고 볼 수 있다.
Mind2Web 프로젝트는 Agent 학습에 필요한 instruction dataset이다. 137개 웹사이트에서 2,000개의 task 실행하는 학습 데이터. 지금 단계에서는 Adept ACT-1에 직접 적용되어 사용할 수 있는 dataset이지만, 향후 (OpenAI의 function call API를 통해) LLM이 외부 웹사이트를 호출하는 기능이 보편화될 때 Auto Agent의 기능 확장에 직접 활용될 것이다.
Autonomous Agent의 의미
Autonomous Agent는, 이제까지 없던 방식으로, LLM이 자연어 기반으로 input-output & comm하기 때문에 가능해진 새로운 방식이다.
Autonomous Agent에서 주목하는 포인트:
가장 중요한 포인트는, Auto Agent가 아직은 production system에서 사용할만큼 robust하지도 신뢰할 수 있는 수준도 아니지만, 장기적으로는 AGI의 방향에 가까운 모습으로 보인다. 특히, Minecraft 게임을 플레이하면서 스스로 필요한 툴을 coding해서 사용하고 이를 asset library로 축적해 두고 재사용하는 NVidia Voyager agent를 보면, AutoGPT, BabyAGI에서 한 단계 더 진화한 모습이라 볼 수 있다.
또 하나 포인트는, Agent, Task, (agent가 생성해 내는) sub-task, 이를 실행하는 LLM, 이들 간에 서로 comm하는 인터페이스가 모두 (잘 정의된 API, JSON 없이) 자연어로 처리된다. 즉, 기존에 실행 모듈 간에 잘 정의되고 맞추어져야 했던 API/JSON spec이 필요없어진, 좀 다른 형태의 “Death of Programming”이라고 해석할 수 있다.
이는, (ChatGPT plugin 개발 과정에서 보인) ChatGPT에게 내가 원하는 spec을 설명하면 이를 실현하는 code를 생성하고 그 것의 debugging까지 ChatGPT를 통해서 진행하여 코딩을 완성해 주는 첫 번째 형태의 “Death of Programming”과 조금은 다른, 하지만 비슷한 맥락의 영향력을 가지는 변화로 해석할 수 있다.또 다른 측면에서는, 사용자가 특정 앱,서비스에서 제시하는 UX에 따라 point & click 과정을 반복하면서 원하는 목적을 찾아 가는 방식이 아니라, (사용자를 대행하는) Agent가 LLM 및 (ChatGPT Browser plugin, OpenAI function calling API, 혹은 Gorilla 모델의 API 접근 등을 통하여) 필요한 외부 웹/데이터베이스 서비스를 (사용자 대신) 직접 접근하여 사용자의 의도 (intent)를 실행하는 과정이, 이제까지 서비스 사용자들이 꿈꿔온 (로봇 프로세스 자동화(RPA)가 극단적으로 일반화된) fully-automated service를 실현하는 방식이라는 점이다.
즉, 사용자가 (서비스가 제시하는) UX를 따라 가면서 원하는 목적지까지 한 단계씩 찾아 가는 방식이 아니라, 원하는 의도.목표를 주면 나머지는 시스템 (Agent)가 스스로 실행하고 원하는 결과를 가져 오는 자동화 시스템이 된다. 궁극적인 의미에서의 “Death of UX”라고 부를만 하다. (Adept ACT-1이 이 방향으로의 첫 번째 시도였다)마지막으로, 자연어로 자신이 원하는 것을 표현하면 이 의도를 해석하여 그 결과물을 자연어로 돌려 주는 ChatGPT의 UX는 기존의 웹, 모바일 앱의 UX를 근본적으로 변화시킨 첫 번째 “Death of UX”라고 볼 수 있고, 여기에서 한 단계 더 나아가 Autonomous Agent를 통한 나의 ‘의도’의 해결은 또 다른 형태의 “Death of UX”라고 볼 수 있다.
즉, 이제까지 (컴퓨터의 지능이 아직 부족하여 우리의 언어와 의도를 이해하지 못하는) 컴퓨터가 이해하고 처리할 수 있는 (클릭, 입력 등의) 전통적인 UX를 통하여 우리가 원하는 의도를 실행하여 온 것과 비교하여, Auto Agent는 “우리의 의도를 이해하고 실행하는 수준의 지능이 있는 컴퓨터에게, (자연어라는) 완전히 새로운 UX를 통하여, 우리의 ‘의도 (intent)’를 이해하고 실행시키는 과정”으로 변화한 형태라고해석할 수 있다.
이러한 패러다임의 변화는 어떤 ‘기회’와 ‘위협’을 줄까?
[To be continued]
너무 잘 읽었습니다!!