[Two Cents #57] Generative AI - 개요; 배경 자료; 최신 기술.시장.서비스; 시장 흐름, 투자 기회 & moat에 대하여; AI 스타트업 DB; ChatGPT
최근 6개월간 가장 핫 키워드는 단연코 AI, 특히 Generative AI 입니다. 그래서, 이번 뉴스레터는 Generative AI 관련 자료를 아주 넓게 정리해 보았습니다. 일부 지난 호와 중복된 내용도 있습니다.
다음 호에는, 이 흐름에 기반한 ‘AI 투자 Thesis’에 대하여 정리해서 공유해 보겠습니다.
[개요]
AI 2022: The Explosion — Coatue Venture
Generative AI 분야의 흐름, 기술, 기회 등에 대하여 가장 쉽게 설명한, Coatue의 백서.
기술의 진화:
Deep learning → CNN → Transformer models (’17)
NLP: BERT (’18) → RoBERTa (’19) → Transformer open-source library
Infra: OpenAI, Cohere, Inflection.ai, Anthropic
Generative AI: A Creative New World | Sequoia Capital
‘20년 GPT-3으로 시작, ‘22년 DALL-E 2, Stable Diffusion 기점으로 본격 보편화되고 있는 Generative AI로 인한 시장의 큰 변화.
향후 몇 년간 분야별 주요 기술 개발 예상:
매년 AI 분야 R&D, 산업, 투자, 정책, 예측에 대하여 가장 포괄적으로 정리하는 리포트.
향후 12개월에 일어날 9가지 예측:
A 10B parameter multimodal RL model is trained by DeepMind, an order of magnitude larger than Gato.
NVIDIA announces a strategic relationship with an AGI focused organisation.
A SOTA LM is trained on 10x more data points than Chinchilla, proving data-set scaling vs. parameter scaling
Generative audio tools emerge that attract over 100,000 developers by September 2023.
GAFAM invests >$1B into an AGI or open source AI company (e.g. OpenAI).
Reality bites for semiconductor startups in the face of NVIDIA’s dominance and a high profile start-up is shutdown or acquired for <50% of its most recent valuation.
A proposal to regulate AGI Labs like Biosafety Labs gets backing from an elected UK, US or EU politician.
> $100M is invested in dedicated AI Alignment organisations in the next year as more people become aware of the risk we are facing by letting AI capabilities run ahead of safety.
A major user generated content side (e.g. Reddit) negotiates a commercial settlement with a start-up producing AI models (e.g. OpenAI) for training on their corpus of user generated content.
이전 version:
[MESSAGE FROM SPONSOR]
[천원 세미나] “풀어서 설명해 주는 Two Cents” — Generative AI
불친절 하기로 소문난^^ Two Cents. 이제 제가 직접 풀어서 설명하는 웨비나를 개최합니다.
그 두 번째로, 이번 뉴스레터의 주제 Generative AI에 대하여 생각을 나누어 봅니다.
주제 1: Generative AI란?
주제 2: 지금까지의 AI와 어떻게 다른가?
주제 3: 무엇을 할 수 있고, 무엇을 못 할까?
주제 4: 2022년에는 무슨 일이 있었고, 앞으로는 어떤 기회가 있을까
[배경 자료]
On the Opportunities and Risks of Foundation Models — Stanford Institute for Human-centered AI
Foundation Model (FM) 관련 현황, 앞으로의 연구 및 진화 방향, 관련 이슈들을 전반적으로 이해할 수 있는 일종의 백서.
FM, Generative AI가 어떤 방향으로 발전하고, (경제적, 사회적으로) 어떤 영향을 미칠지에 대한 이해에 도움 됨.
특히, FM이 현재 할 수 있는/없는 일, 앞으로의 연구/발전 방향 등에 대한 이해를 하기 위해서 2. Capabilities, 4. Technology 부분 참고하면 도움이 많이 됨
(AI, FM이 어디까지 진화하였고, 앞으로 어떻게 발전하고 어떤 영향을 미치고 어떤 이슈가 있을지 이해하기 위해서는 필독 추천)
Foundation Model (FM)에 대한 기본 개념:
(그나마 상대적으로 쉽게 알아 들을 수 있게 설명해 줌)
Vision Transformers — Deep Learning Focus
Transformer model (추가로 Transformer model이 이미지 인식에서도 특화된 CNN 못지 않은 좋은 성능을 보인다는 설명을 하면서)
Language Models: GPT and GPT-2 — Deep Learning Focus
GPT, GPT-2 LM
Language Model Scaling Laws and GPT-3 — Deep Learning Focus
GPT-3 LLM
137 emergent abilities of large language models — Jason Wei
Foundation Model의 특징인 ‘학습하지 않은 범위에서 새롭게 발현되는 (emergent) 기능’ 100여 가지
Neural LM에서 LLM으로의 기술 진화에 대한 생각 (****)
Neural language model (LM) 기술 자체는 이미 20여년 전부터 있었음.
(NLM 기술 기반의) 현재의 LLM general-purpose, generative behavior를 보이게 된 것은, 크게 2가지의 영향: (1) MLP (multi-layer perceptron)에서 Transformer 구조로 변화, (2) (웹 데이터 전체를 대규모 학습 데이터로 제공함으로써) ‘강한 학습 목표’를 부여.
이 두 가지의 결함으로 LLM의 ‘emergent behavior’가 나타남 → 모든 영역에 적용될 수 있는 일반화된 general-purpose FM 모델이 가능하짐
How Open Source is eating AI — L-Space Diaries
FM의 타임라인 전체를 일목요연하게 볼 수 있음
The growing GPT-X economy | 6Pages (’21.4)
OpenAI GPT-X 모델의 현황, 의미.
GPT-3 (’20.6):
175b parameters → ‘gigantic generalist’ 방식. Training data 300b tokens, 45TB
Use cases: semantic search, chatbot, writing gen, 요약, 번역, 내용 이해 & 대화
vs. GPT-2 (1.5b) (’19.2) → GPT-3 (175b) (’20.6) → Google PaLM (540b) (’’22.4)
GPT-3 is No Longer the Only Game in Town — Last Week in AI (’21.11)
GPT-3의 open source 및 유사 모델들. (as of Nov 2021)
Transformers Comprise the Fourth Pillar of Deep Learning — ARK Invest (’21.3)
Key AI Model의 진화: CNN (image), RNN (speech), MLP (search, recomm) → Transformer (language understanding)
Divam Gupta on Twitter: “Some popular implementations of Stable Diffusion” / Twitter
Stable Diffusion의 다양한 implementation:
PyTorch implementation by Machine Vision and Learning LMU Munich
Tensorflow/Keras implementation
Diffusers library by Hugging Face
OpenVINO implementation
JAX Implementation by Hugging Face
MPSGraph implementation
CoreML model running on iPhone
A Gentle Introduction to MLOps | by Yashaswi Nayak | Towards Data Science
MLOps: Continuous delivery and automation pipelines in machine learning | Google Cloud
AI를 실제 production 환경에 적용하는 과정을 다루는 MLOps.
[최신 기술.시장.서비스]
AI 분야 가장 최근 R&D 추세
Jim Fan on Twitter: “Google Robotics just announced RT-1, a Transformer, GPT for robotics” / Twitter
구글에서 Tranformer 모델 기반으로 supervised learning으로 학습한 모델 RT-1 발표.
로봇을 위한 AI는 multi-modal input, 기대되는 output (action)에 대한 학습 등의 복잡성으로 인하여, ‘다음에 나올 단어’를 찾는 목적으로 학습된 LM과 비교할 때 학습 데이터 준비 및 학습 난이도가 높다.
Nvidia에서 Transformer 모델 기반으로 만든 VIMA 기반.
Thread by @DrJimFan — 15 papers in NeurIPS conference — Thread Reader App
NeurIPS의 15개 논문 중 관심을 끈 몇 가지: (‘17년 Google의 Transformer 모델 논문이 발표된 곳)
Imagen: Photorealistic Text-to-Image Diffusion Model with deep language understanding. from Google. beats DALLE-2
MineDojo: “FM as open-ended embodied agents that proactively take actions, endlessly explore the world, and continuously self-improve”. 마인크래프트 플레이할 수 있는 FM. from Nvidia
LAION-5B: 5.85b CLIP-filtered image-text pair dataset for next-gen LLM. dataset for Stable Diffusion 2.0
게임 캐릭터 asset을 Generative AI 기술로 자동 생성한 경험 → 게임 개발 방식에 큰 변화를 줄 것
Emm on Twitter: “New exploration: AI-generated fantasy game cards” / Twitter
Stable Diffusion을 약간 custom training 시켜서 판타지 TCG 게임의 게임 아이템을 자동 생성한 케이스. (위 케이스를 정리한 글). Generative AI를 writing, 디자인 등의 분야 생산성에 적용하는 대표적인 케이스.
Generative AI 기반 semantic 검색 서비스 Cohere.ai의 예
AI Writing Tools — Fad or Fabulous? — by Josh Dance
Best AI Writing Tools — Google Sheets
AI writing tool — assistants, general writing tools, vertical-specific tools
AI 기반 다양한 툴:
OpenAI Playground. Peppertype — copywriting. Rytr — writing original content. Jasper AI — copywrite. Copy AI — sales copy. Resemble AI — text-to-speech voice cloning. Unscreen — background removal in video. Narakeet — text-to-speech voiceover. Interior AI — interior design studio. Avatar AI — AI-gen avatar. Rowy.io — spreadsheet for database. RunwayML — image/video editor. Lexica Art — search for Stable Diffusion prompts. Cleanup Pictures — image editor. Lookadesign — logo design & brand kit.
Transformer 기반으로 춤 안무를 생성해 낼 수 있는 모델.
K-pop + Generative AI의 비즈니스 모델이 나올 듯 한데, 반드시 이 것이 K-pop 산업에 도움이 되는 방향일지는 좀 의문이 있음. (아주 창의적인 작가를 제외한 대다수의 일러스트레이터는 Generative AI에 의해 대체될 것이라는 예상과 같은 맥락에서)
CICERO: An AI agent that negotiates, persuades, and cooperates with people — Meta AI
CICERO — 사람과 협상하고 설득하고 협동하는 AI 에이전트 | GeekNews
Meta AI에서 개발한, 전략, 협상, 협력/배신 등을 통한 전략 게임 Diplomacy를 인간과 직접 플레이하는 AI agent CICERO.
입력-Transformer-출력 구조의 LLM 대비, 자연어 처리, 전략, 협상 등을 처리하는 복합 에이전트로서의 AI. AGI로 한 단계 더 진보.
Study suggests AI cruise control could smooth commutes • The Register
AI-assisted 크루즈 컨트롤을 탑재한 차량이 트래픽 데이터에 의해 속도를 조절하여서, 지역의 교통 체증을 줄일 수 있다는 연구.
개인적으로, 자동차 간의 M2M comm을 통한 교통 흐름 제어, 이와 연동된 adaptive 신호등 및 차선 체계 등을 통하여 교통 체증 문제를 상당 부분 개선할 수있을 것이라는 기대를 가지고 있음. 추가로, 여기에 자율 주행 차량이 M2M으로 연동되면 더 optimize될 것이라고 봄.
Google Has a Secret Project That Is Using AI to Write and Fix Code — Business Insider
스스로 자기 코드를 수정할 수 있는 구글 프로젝트 Pitchfork. AGI로 한 발 더 가까이.
Snorkel Flow 플랫폼
(1) Foundation Model (FM)을 이용한 domain-specific 데이터의 auto- & programmatic-labeling, (2) 이를 이용하여 상대적으로 적은 domain-specific 트레이닝 테이터로 상대적으로 작은 FM의 fine-tune, (3) prompting을 통한 데이터의 추가 학습 등을 결합한 Data-centric Foundation Model로, (GPT-3 등의 일반 LLM 대비) 0.1% 수준의 비용/데이터로 domain-specific FM 구축 가능한 Snorkel Flow 플랫폼.
(GPT-3 규모의 일반 LLM을 구축, 적용하기 어려운) Enterprise AI를 위한 기술의 한 예.
이제 AI stack의 각 layer에서 특화, 분화가 진행되고 있음. Mass adoption으로 진행하는 과정.
The $72M ARR Google Suite of generative AI — Sacra
GPT-3 기반의 AI app 서비스 Jasper, Copy.ai가 급 성장. 이러한 AI app이 어떻게 시장 경쟁력을 유지하면서 성장해 나갈 수 있을지에 대한 관찰.
“generative AI apps’ moats will come from being deeply embedded into workflows and converting feedback data into finely-tuned AI models trained on customer data”
Jasper, Copy.ai와 같은 비즈니스 모델에 대해서는 두 가지 상반된 시각을 가질 수 있음.
FM에 대한 fine-tuning으로 특정 도메인에 대한 data moat를 구축 → 공통의 FM 인프라 기반으로, 특정 vertical에서 moat를 구축해 나가는 전형적인 스타트업 플레이북
ChatGPT 기능에 대한 UX layer 혹은 UX arbitrage: 장기적으로 data moat를 구축하지 못 한다면, UX arbitrage에 그치고 장기적으로 sustainable하지 않음
Thread by @DrJimFan — 15 papers in NeurIPS conference — Thread Reader App
NeurIPS 발표 논문 15개 요약 중, 주목할만한 3개:
Imagen: Photorealistic Text-to-Image Diffusion Model with deep language understanding. Google. beats DALLE-2
MineDojo: 마인크래프트 게임 플레이할 수 있는 모델. Nvidia. improves over GPT-3
LAION-5B: 5.85b CLIP-filtered image-text pair dataset for LLM. dataset for Stable Diffusion 2.0
YC AI/ML 회사. 요즘 AI/ML 창업 흐름을 참고할 수 있을 듯.
Dev Tools AI: Co-Pilot for UI Testing
Oneleet: Security testing as a service
Cerrion: computer vision to automatically detect problems on production lines
Pilot AI: turn sales calls into structured CRM data, instantly and automatically
Hello: a generative engine for devs and technical people.
Hugging Face Business Breakdown & Founding Story — Contrary Research
“GitHub for ML”이라 불리는 Hugging Face에 대한 분석 보고서
5 Startups solving for ML Serverless GPU Inferencing | by Ramsri Goutham | Medium
ML model 검색/선택 & 자체 데이터 학습된 모델을 운영할 수 있는 ‘serverless GPU’ cloud infra 제공 스타트업:
slai.io, banana.dev, inferrd.com, pipeline.ai, replicate.com, exafunction.com
Ben Poole on Twitter: “DreamFusion, our new method for Text-to-3D” / Twitter
Luma AI on Twitter: “Imagine 3D: a new way to create 3D with text” / Twitter
텍스트에서 3D 모델을 생성해 내는 Imagine 3D.
DreamFusion 기반: dreamfusion3d.github.io
바이오 연구 논문 데이터로 학습된 PubMedGPT.
2.7GB의 적은 데이터로 특정 영역에서 우수한 성능을 보임.
좁은 영역에 특화되어 학습된 특화된 LLM이 의학, 법률, 금융 등 전문 분야 별로 많이 등장할 것.
New and Improved Embedding Model — OpenAI
OpenAI의 새로운 embedding 방식의 LLM text-embedding-ada-002. 이 모델로 (구글의 검색 대상이 되는) 모든 인터넷 데이터를 embed하는데 $50m 정도의 비용이면 가능.
조만간 LLM 모델로 구글의 검색 영역에 대한 도전자가 등장할 것으로 예상됨.
이미 ‘ChatGPT가 구글 검색을 상당부분 대체할 것’이라는 논의가 많은데 아직은 GPT-3.5 기반 검색 퀄리티가 많이 떨어지지만, GPT-4 기반이 되면 구글 검색 수요의 80% 정도는 LLM 기반 검색으로 대체될 수 있다고 봄.
특히, UX가 지금의 검색 창 형태가 아니라, (chatbot까지는 아니더라도) (핸드폰 검색창, 브라우저 주소 창 등에서 바로 구글 검색으로 연결되듯이)작업 환경에 embed된 interactive Q&A 형태의 UX로 제공되면, casual한 구글 검색 니즈의 상당 부분이 해소될 수 있기 때문에, 실질적으로 구글의 existential threat가 될 것이라고 봄.
여기에서 중요한 포인트는 비즈니스 모델.
구글이 ‘기본 검색창’ (아이폰 검색창, Firefox 브라우저 주소창 등)을 구글 검색으로 연결하기 위하여 연간 수십억 달러의 제휴 비용을 지불하는 것을 생각하면, 이러한 사용자 접점을 확보한 곳 (예: 핸드폰, 브라우저, Notion writing 툴, Figma 디자인 툴 등)을 확보하기 위한 (구글 검색을 대체하려는) 수익업 달러 규모의 경쟁이 시작될 수 있음.
Talking About Large Language Models — arxiv.org
LLM이 과연 인지, 이해, 추론을 할 수 있는 지에 대한 논의.
LLM은 외견상으로 아무리 사람과 비슷한 대화 능력을 보이더라도, 구조적으로 보면 인지, 이해, 추론할 수 있다기 보다는 (보이저엑스 남세동 대표가 간단명료하게 표현하였듯이) ‘통계적 앵무새’라고 할 수 있음.
LLMs are generative mathematical models of the statistical distribution of tokens in the vast public corpus of human- generated text.
i.e. “Here’s a fragment of text. Tell me how this fragment might go on. According to your model of the statistics of human language, what words are likely to come next?”
이 논의가 중요한 이유는, AI 개발 커뮤니티가 외부와 논의할 때 (특히, 정책 당국), LLM이 이러한 인지, 이해, 추론을 할 수 있는지에 대한 설명을 정확히 해야만 오해에 따른 시행 착오를 줄일 수 있기 때문.
Modern LLMs: MT-NLG, Chinchilla, Gopher and More — Deep Learning Focus
GPT-3 이후의 LLM 들의, 데이터 사이즈, 데이터 퀄리티, 모델 구조 등에 따른 성능 차이 비교:
LLM performance starts to plateau beyond a certain point.
making LLMs better seems to be a combined effort of increasing the model and data scale
MT-NLG (530b): Training this model was a massive engineering effort. Some tasks benefit more than others, but this much bigger model did not significantly improve upon GPT-3
Gopher (280b): utilizing a pre-training corpus that is larger, higher-quality, and diverse can yield significant performance benefits. Gopher showed improved performance via a larger model and a better pre-training corpus called MassiveText.
ChinChilla (70b): model and data size are equally important when scaling up language model pre-training. Although Chinchilla is smaller than popular models like Gopher and GPT-3, it can surpass their performance via more extensive pre-training
Overall, (slight) performance benefits are realized with shallower, wider language models
의견:
larger LLMs = more engineering effort
The largest improvements to LLM performance are achieved via a combination of model and dataset scaling (in roughly equal proportion)
width가 depth보다 약간 더 중요
supervised fine-tuning의 효과 훨씬 큼
[투자]
시장 흐름 & 투자 기회에 대한 시각
Generative AI 기술을 일반화하여 consumer, enterprise 시장에 적용하여 새로운 value prop을 만드는 Generative Tech 분야. Web3/crypto와 함께, 그와 버금가는 규모의 새로운 가치를 만들어 낼 것으로 봄.
약 7년 전 CNN/RNN 모델 기반으로 veritical AI 분야의 기회가 열리는 듯 하다가 그 이상 성장하지 못하였는데, 지난 1년여 사이 GPT-3, DALL-E, Stable Diffusion으로 촉발된 Generative AI는 ‘그 때와는 다른’ 지속가능한 value prop을 만들어 낼 수 있을 듯.
이 기회에 대하여 스타트업으로서 어떻게 접근하여야 할 지에 대한 생각
몇 가지 인상적인 것들:
In a pre-Generative Tech world, you might select a playlist for a road trip curated by someone else. In a post-Generative Tech world, you will generate entirely new songs that fit your occasion, mood, blood pressure, heart rate, location, and who you’re with, etc.
Potential Applications: Avatars, Photo sharing, Video streaming, Legal services, Angel and VC investing, Stock picking, Investment banking, Investment advice, News, Sports, Architecture, Interior design, Home design, Selling real estate, Landscaping, Event planning, Payments, Loans, Credit cards, Sales, Marketing, Advertising, Copywriting, Screenwriting, Social networking, Dating networks, C2C Marketplaces, B2B Marketplaces, Website development, Website design, Software programming, Developer tools, Security, Growth tools, Business Intelligence, Invoicing, Spreadsheeting, Recruiting, Jobs boards, Art, Video games, Metaverse, Music distribution, Influencer networks, Product design, Teaching, Learning, Homework, Tutoring, Translating, Community management, Brand management, Customer loyalty, Lead generation, Pharmaceuticals, NFTs, Astrology, Fitness & Exercise, Watching TV
경쟁력을 유지하기 위한 멘탈 모델:
How can it have network effects where every new user adds value to every other user?
How can it embed itself in a business or someone’s life so they don’t want to stop using it in the long run? This is Jasper’s job in 2023 to figure out.
Where are there hyper local data sets for your AI model that you can own and maintain your data network effects despite competition coming in later?
Where can you plug in to existing workflows, or a browser, or an app?
AI: Startup Vs Incumbent Value — by Elad Gil — Elad Blog
‘첫 번째 AI wave’와 비교해서 (Transformer, LLM 기술 기반의) ‘새로운 AI wave’에 대해서 ‘This time it’s different’라고 보는 Elad Gil의 시각. 투자자 입장에서 의미있는 시각.
지난 10년간의 (deep learning, CNN, RNN 등의 기술 기반) ‘첫 번째 AI wave’ 은 기대와 달리 ‘많은 스타트업의 가치 창출에 의한 새로운 큰 흐름 형성’ 보다는, (Google, FB, Amazon 등의) incumbent에서 marginal value-add를 만드는데 그쳤다고 본다.
주된 이유로는,
기술이 ‘훌륭’했지만 ‘great’ 하지는 않았다 → ‘3x 제품’을 만들 수 있었지만, ‘10x 제품’을 만들지 못함
대량의 데이터 확보가 주된 경쟁력 → (deep-pocketed) incumbent가 유리한 상황, 등등
이번 Generative AI의 흐름은 이와 달리 ‘스타트업들에 의한 새로운 큰 흐름 형성’이 가능할 거라고 봄. 그 이유로는:
더 나은 기술 → ‘10x 제품’이 가능해짐
infra 제공하는 회사가 많아짐 (OpenAI, Stability.AI, Hugging Face 등) → 스타트업 웨이브 형성 가능
incumbent가 없는 분야에서의 use cases 등장 시작. 예: marketing copy, image gen, code gen
AI Revolution — Transformers and Large Language Models (LLMs) — Elad Gil
지난 10여년 간의 mobile wave에 비추어, Transformer, LLM 기술 기반으로 새로운 ‘AI wave’와 관련 기회가 어떻게 만들어질지에 대한 Elad Gil의 생각. 투자자 입장에서 중요한 시각 (****)
Transformer, LLM 기술로 AI 분야의 새로운 흐름이 시작.
이 기반으로 등장/성장할 회사의 3가지 유형:
Platform: (iPhone, Android와 같은 의미로) 인프라 플랫폼 역할을 할 회사. OpenAI, Google, Cohere, A21, Stability.ai, Hugging Face 등
새로운 AI app: (mobile에서의 Uber, Doordash와 같이) AI 기술이 있어야만 가능한 새로운 서비스 회사. Jasper, Copy.ai 등
AI로 가치가 더 해질 incumbents
새로운 AI 회사 등장이 예상되는 분야 & 예:
Platform — model/API: Eleuther
Tool: Hugging Face
Code, security/testing
기업 내부 툴: HR, finance, 고객 지원, sales & mktg
ERP
Consumer app: search, commerce, creative tool, voice, auto-email, legal …
관련 이슈들:
소프트웨어 stack vs. semiconductor performance
AGI vs humanity의 경쟁
If You’re Not First, You’re Last: How AI Becomes Mission Critical — Base10 Blog
Generative AI 흐름에서 투자 기회에 대한 생각
3가지 핵심 질문:
가치 창출:
moat: 브랜드. UX. workflow. proprietary data. 개인화
mission critical?: 아직은 극히 초기
시장 진화 방향에 대한 몇 가지 observations:
AI platform layer는 winner-take-most가 될 것. OpenAI, Stability AI, HuggingFaces 등
그럼에도, (cloud와 달리) AI platform간의 switching cost가 높지는 않음
AI apps는, 비즈니스 모델, 시장 진입 등의 진화 방식이 SaaS와 유사한 패턴을 보일 듯. 즉, 원천 기술력에 의한 경쟁보다는, pain point에 대한 해결책, 고객 위한 value accrual의 극대화에 의해 성패가 결정될 것. 그 기반이 되는 기술은 다수의 AI platform player가 제공하여 이에 의한 차별화는 크지 않을 것이고, AI apps는 여러 platform player 연결 & 스위칭을 통하여 기본 기능을 제공받고, 여기에 private data에 의한 학습으로 추가 차별화 가능할 것.
Opportunities in generative AI — by Leo Luo — Consumer Startups
특히 consumer 분야에 Generative AI가 적용될 때 가능할 스타트업 기회들:
Who Wins the AI Value Chain? — Napkin Math — Every
향후 몇 년간 AI 관련 비즈니스가 어떻게 펼쳐질 지에 대한 예상: (****)
Integrated AI: 기존 비즈니스의 기능 개선
Infra as a service: AI 관련 인프라 as a service, primarily for enterprise
Intelligent Layer: OpenAI, Stable Diffusion 등 기본 AI 모델 플랫폼을 제공하는 서비스
Invisible AI: AI 모델 기반으로, localized data로 vertical market에서의 value creation. (과거에 vertical AI라고 불렀던 방향)
Foundation Models Are The New Public Cloud | Scale Venture Partners
(GPT-4, DALL-E 2, Stable Diffusion 등) Foundation Model이 Generative AI 시대에는 (AWS와 같은) public cloud service 역할을 할 것이라는 (어쩌면 너무 당연한) 예측.
“Transition From the Era of Understanding to the Era of Generation”
Strategies for Startups Building In the Era of Foundation Models:
Building more accessible UI
Fine-tune a generative model for a particular dataset
Building (and even open-sourcing) a model
How Company Building Evolves With the Rise of Foundation Models:
Increase in Speed to Market
The Rise of the Bottoms-Up GTM
Model ≠ Product: the model is not the product. It is an enabling technology that allows new products to be built
The Data Advantage in the Foundation Models Era | Costanoa Ventures
Foundational model vs. data 사이에 어느 쪽에서 더 큰 value capture가 일어날 지에 대한 생각. 당연히 data.
“Historically, data-intensive machine learning has generated a true moat and this new era will be no different”
Amjad Masad on Twitter: “The monumental changes coming to software this decade” / Twitter
AI 기술로 새로운 소프트웨어 패러다임 emerge → 생산성 100x 증가
20세기: 어셈블리어 → HLL → Script 언어 → OSS. 각 단계별 10–100x 생산성 증가
21세기: AI 기술 → 소프트웨어 에이전트 → SW의 네트워크 모델 (from 스택 모델). 100x 생산성 증가
6 New Theories About AI — Napkin Math — Every
AI 시대의 변화에 대응하는 두 가지 전략적 틀:
Just as the internet pushed distribution costs to zero, AI will push creation costs toward zero.
The economic value from AI will not be distributed linearly along the value chain but will instead be subject to rapid consolidation and power law outcomes among infrastructure players and end-point applications.
6가지 micro-theory:
Fine-tuned models win battles, foundational models win wars
Long-term model differentiation comes from data-generating use cases
Open source makes AI startups into consulting shops, not SaaS companies
Most endpoints compete on GTM, not AI
AI will not disrupt the creator economy, it will only amplify existing power law dynamics
Invisible AI will be the most valuable deployment of AI
Before the flood — by Samuel Hammond — Second Best
AI가 가져올 미래의 변화 예측중 가장 dystopian view.
(미국 기준으로, 대부분 1930년대에 (대공황 이후 이를 극복하는 과정에서) 만들어진) 대부분의 사회 시스템이 새로운 기술이 가져올 변화에 대처할 수 있는 근본적인 변화를 거치지 않는 한.
한국이라고 다를까?
심지어, 미국은 현재의 시스템이 (80년 전이기는 하지만) 당시 미국 사회 스스로의 debate와 합의 과정을 거치며 만들어지기라도 하였지만, 한국의 시스템은 그런 과정조차 없이 이미 만들어진 외부의 기성 시스템이, 내부의 의지가 아닌 외부의 의지에 의해 직도입되고 이식된 것이라, 이러한 새로운 변화에 대응할만한 스스로의 변신에 대하여 debate를 할만 한 내부 역량조차 없는 것이 아닐까 싶을 정도인데.
everyone will enjoy their own personalized movie, music, book, news article, video game experience
“content” and “media” may end as terms, as we simply enjoy personalized experiences, not productize or distribute uniform consumables
ChatGPT owner OpenAI projects $1 billion in revenue by 2024 | Reuters
OpenAI 매출 예상: $200m (’23) → $1b (’24)
VCs Weigh OpenAI Tender Offer As Microsoft Investment Talks Remain Ongoing — Newcomer
OpenAI가 Microsoft로부터 몇 십억 달러의 펀딩 진행 중이고, 다른 투자자들은 OpenAI의 구주 인수를 통해 OpenAI에 투자 기회를 찾고 있음.
투자 기회 & defensible moat
Who Wins the AI Value Chain? — Napkin Math — Every
AI 기술이 산업 value chain에서 어떤 형태로 발현될 지에 대한 생각. 기본적으로 같은 생각임.
소프트웨어가 모든 vertical (커머스, 엔터테인먼트, 생산성 등)에서 새로운 가치 창출하는 제품, 서비스를 만들어 내었지만,
특정 ‘소프트웨어’ 자체가 투자의 대상이 되기 보다는, 소프트웨어 기술에 기반하여 ‘특정 영역에서 가치를 만드는 제품, 서비스 (예: SaaS)’가 투자 대상이 되었듯이.
“The staying power of a product is the job-to-be-done it solves — of which only AI is a component”
“AI is like electricity”: AI is resistant to an old-school value chain exercise where you would map out raw inputs, suppliers, manufacturers, and distributors. Because most of an AI product resides within digital goods, the boundaries between capabilities and firms are very blurry.
4 approaches:
Integrated AI: 기존 시장 주도 사업자/제품 + AI 기능 추가. 예: MS Office + Dall-E
Infrastructure as a service: AWS, Oracle, Azure, Google Cloud + AI 인프라
Intelligent Layer: FM을 API 형태로 제공. Enterprise 대상 API/on-prem 제공 등의 인프라 서비스. e.g. OpenAI
Invisible AI: AI로 경쟁력이 강화된 일반 제품, 서비스. 예: ByteDance Tik Tok. “FM as an enabling tech”
Gen AI 분야의 layers (****)
AI 기반 프로젝트의 moat에 대한 생각:
an AI product is only valuable, long term, if it buids something unique and defensible (i.e. system of records, network effects). The durable value is only in this second order output, and not in the AI.
so what is valuable? data integrations. the ability of services to execute actions based on the public database that is blockchain…
(어떤 AI 스타트업에 투자 기회가 생길까에 대하여 투자자로서 계속 고민하게 되는 포인트)
FM의 특성으로 인하여,
(1) FM 자체에 대한 투자 기회는 (최소한 국내에서는) 거의 끝난 듯하고, (클라우드 인프라 시장이 AWS, GCP, MS Azure 과점 체제로 굳어진 것과 마찬가지로, FM/LLM 분야도 OpenAI, Google, Meta, Amazon, (MS는 아직 의문이 있지만, OpenAI를 선점하고 여기에 올인하는 듯 함) 이들 메이저 중심의 과점 체제로 시장 재편이 사실상 끝난 것이 아닌가 함)
(2) (CNN, RNN 등 supervised-learning 기반 모델 대비) LLM/FM에서는 data moat가 과연 있을지에 대한 의문이 크고, (국내에서는 아직 한글 데이터 기반의 FM 학습이 충분한 수준이 아니라고 판단하기 때문에 아직 이 부분에 대한 기회는 있는 듯 하지만, 이 영역 또한 crawlable한 데이터를 보유한 네이버, 카카오 외에 다른 기업에게 기회가 있을까 의문이 큼)
(3) (최소한의 labeled data로 supervised learning을 하면 되는, 혹은 많은 경우 zero-shot inference로도 충분한 성능이 나오기 때문에 이조차 필요 없는) fine-tuning 기반으로 vertical 에서 value prop을 만드는 것이 스타트업으로서의 기회가 될텐데,
이 영역에서의 value prop과 투자 기회를 찾는 것은, (비유하자면) ‘보편적인 소프트웨어 기술 기반으로 새로운 비즈니스/투자 기회가 어디에 있을까’ 질문과 같은 구조의 것이라는 생각으로 귀결되고 있음.
즉, 소프트웨어/AI (최소한 LLM/FM 기반의 AI 분야) 기술은 사실상 commodity화 되었고, 이렇게 보편화된 기술을 가지고 새로운 value prop을 찾는 것은, 일반적인 SaaS/소프트웨어 분야에서의 value prop을 찾는 것과 거의 같은 것, 즉 특정 vertical에서 pain point를 찾아 내고, 이 것을 해결하기 위하여 소프트웨어 + data moat (그 분야의 domain knowledge)를 결합하여 솔루션을 찾아 내는, 가장 일반적인 스타트업의 접근 방식.
물론 아직 LLM/FM이 해결하지 못하는 영역, 예를 들면 multi-modal, robotics, mobility, second-order reasoning 등은 아직 최소한 5~10년은 green field로 남아 있을 것으로 보이지만.
The Cost of ML & Defensibility Flywheel in ML | by Viet Le | la famiglia vc | Mar, 2021 | Medium
(주로 supervised) ML 기반 스타트업의 defensibility에 대한 생각.
주된 실패 요인:
퀄리티 높은 데이터 확보의 어려움, 비용, 시간 지나면서 효용성 감소 → 데이터 업데이트 비용
기반 모델의 오픈소스, API화 → 알고리듬, 모델에서의 차별화 확보 어려움
Defensibility의 구성 요소: Value-driving product (특히 UI/UX), Exclusive data, Unlimited resources.
ML에서의 defensibility flywheel:
(위에서 언급한 supervised ML 뿐 아니라) 기반 FM 차원에서 차별화하기 어려운 generative AI에서는 특히 이렇게 사용자가 느끼는 value prop을 중심으로 하는 flywheel이 더욱 중요해진다고 봄.
투자 기회 아이디어들
What to Watch in AI | The Generalist
주요 VC가 생각하는 AI 분야의 새로운 (투자) 기회:
Trend: The elevation of human work — Reid Hoffman, Greylock
Domain-specific version of Copilot: 변호사, 건축가 …
Trend: Generative AI and life sciences — AirStreet Capital
Life science, 특히 의약 분야의 value creation이 가장 클 것
단백질 구조 예측. 약품 분자 구조 설계 → 조 달러 규모의 의약품 시장
Trend: Collaborative interfaces — Sarah Guo, Conviction
검색, workflow 등 분야에서 interactive, collaborative interface/process
Trend: AI video creation — Matt Turk, FirstMark
Trend: Automated code generation and app development — Founders Fund
Trend: Digital twins in clinical trials — Radical Venturs
Trend: Come for the workflows, stay for the personalization — Index Ventures
AI Agents: 변호사, 의사, 엔지니어, 회계사 등
AI-augmented SaaS: 예: 오디오 녹취, 자연어 UX
Trend: Chained prompts and multi-step automation — Compound
Consumer: 자연어 UX
Enterprise: advanced worlkflow, 새로운 소프트웨어/UX
Trend: Industrial automation that solves real-world challenges — Basis Set
(공급이 감소하는) 전문/숙련 노동자 역할: 예: 용접, 건설
Overview & Applications of Large Language Models (LLMs) — Leigh Marie’s Newsletter
LLM 기반으로 가능한 app 분야 (투자) 기회와 스타트업들:
Copywriting: GPT-3, BLOOM, GPT-J models → Copy.ai, Copysmith, Contenda, Cohere, Jasper.ai
Code gen: Codex, CodeGen models → Tabnine, Codiga, Mutable AI
Shell command gen: GPT-3 → Warp
Regex gen: GPT-3 → Autoregex.xyz
SQL gen: Cogram
Code review, quality improvement: Codiga. Jupiter notebooks → Mutable AI
DB query optimization: Ottertune
DevOps
Frontend/website gen: Pygma
PRD gen: Monterey
Product insights: Viable Enterpret, Cohere, Anecdote
Enterprise search: Naver HyperCLOVA, Shaped AI
Chatbot, support agent: LaMDA, Rasa, Cohere, Forethought, Cresta
Software tool: Adept AI, Character AI, Inflection AI
Personalized tutoring: Korbit, Replit
Grammer correction: Duolingo, Writer.com, Grammerly
Personalized decision making: Oogway
차세대 LLM의 발전 방향 예상과 스타트업 기회:
Multi-prompt, auto-regressive → 자신이 만들 결과에 대한 추론과 수정 과정. 예: LangChain, Dust
Agentic: 직접 인터넷 검색 등을 통하여 결과 개선. 예: WebGPT, ACT-1
Vast procedural knowledge: 단순 답이 아닌, 복합적 결합/판단이 필요한 답
새로운 스타트업 기회:
Industry-niche assistants: 대부분의 routine한 작업을 대신 처리할 수 있는, vertical에 특화된 챗봇
자연어 검색 + 요약: 예: metaphor.systems
AI agents: 복합 업무를 대행해 주는 agent
The Generative AI Revolution in Games | a16z (’22.11)
코딩과 함께, Generative AI가 생산성 향상에 아주 큰 역할을 할 분야가 게임 아이템 디자인 분야. 향후 2–3년 사이 가장 먼저 대규모로 Gen AI가 활용될 분야.
이에 따라 예상되는 변화:
기존 인디 개발자 규모에서도 (Generative AI를 활용한) 충분한 퀄리티 게임을 만들어내는 ‘미니 게임 스튜디오’가 많아질 것
게임 제작 비용이 급격히 절감됨에 따라, (기존에 가능하지 않았던) 아주 새로운 방식의 게임이 많이 시도될 것.
예를 들면, 궁극적으로 (어쩌면 5년 이내에) 게임 플레이하면서 (게임 진행 상황에 따라) 실시간으로 게임 아이템을 만들어서 이를 플레이하는 게임까지 가능해질 듯. (이러한 방식의 RPG 게임 Arrowmancer가 이미 등장. 아직 퀄리티가 많이 떨어지겠지만)
게임 특화 Foundation Model 등 게임 특화 AI 툴/플랫폼 등장/강화 → 게임 분야의 disruption 가속화될 것
Market Map:
2D: Concept Art, production art
3D: assets, textures, motion capture/filter from video, level design, world building
Audio: 음향 효과, 음악, 음성, 대화
NPC, 게임 캐릭터
이미 2D asset 디자인 가능한 파일럿 서비스도 등장
Art Isn’t Dead, It’s Just Machine-Generated | a16z
(일반적인 예상과 달리) Generative AI 기술이 코딩에 적용되는 경우보다 creative art에 적용되는 경우, 더 많은 value prop을 만들어 낼 수 있다는 생각.
게임 개발 분야에 적용되는 경우에 비추어 보면, creative art 분야가 단기적으로는 기존 방식 대비 value prop 비율이 가장 클 듯. 장기적으로 FM이 더 진화하면 value prop이 어떻게 변화할지는 더 보아야 할 듯.
그리고, 일반적인 생각과 달리, Gen AI 기술은 creative art 분야의 지평을 더 넗혀 줄 것이라는 생각.
Gen AI의 응용 방식을 보면, 가장 단순 작업 (색칠하기, 단순 일러스트 생산 등)은 대체되겠지면, 장기적으로 새로운 예술가에 의하여 새로운 creative style이 계속 만들어지지 않으면, Gen AI FM은 지금 이 시점까지 만들어진 예술 작품을 학습하고 이와 유사한 모사품을 만들어 내는 수준에 멈출 것이기 때문. (게임 개발에 Gen AI가 적용될 때 가능해지는 새로운 게임/방식을 상상해 보면, 예술 분야에서도 유사한 패턴의 발전이 계속될 것이라고 봄)
AssemblyAI on Twitter: “The winners of our $50K AI Winter Hackathon” / Twitter
AI Hackathon winners. 최근 극초기 AI 스타트업 트렌드를 읽을 수 있음.
Superpaint: A drawing + image editing app
Toy Story Creator: Bring toys to life for bedtime stories
OperatorAI: AI system that helps triage 911 calls and connect callers with emergency services
Docspace: tool for analyzing legal documents
Pupil-ai: Enhance online self-learning
AI 초기 스타트업 예:
WOMBO: makes creating images with AI easy, fun, and useful. With 130+ million downloads on iOS and Android and 2 billion images created, they are likely the largest consumer AI startup around.
runwayml: enables complex videos to be created with AI in minutes
twelve_labs: video search, powered by AI. being able to search millions of videos with complex questions, with AI pin-pointing non-obvious but relevant scenes.
[시장 데이터]
AI 스타트업 데이터베이스:
Introducing: the Scale Generative AI Index | Scale Venture Partners
Generative AI 분야 200여개 회사 데이터베이스.
전체를 훑어 보면, 현재 어떤 AI 스타트업이 어떤 비율로 등장하고 있는지 트렌드를 볼 수 있음. 대략 10개 내외 카테고리를 벗어나지 않음.
Foundation model, MLOps/Infra, code gen, image gen, ad/copy gen, writing gen, synthetic voice/dubbing, music gen, search (semantic, visual), Figma to code, enterprise tool (sales copy, customer support, task automation, HR), chatbot/avatar
Generative AI — Base11 Research
Generative AI 스타트업 리스트 (약 300여개)
AI / ML Company Database — Altimeter
Generative AI 스타트업 리스트 (약 200여개)
https://airtable.com/shrBeWpMlxf3e14E8/tblS4TkbJbm0cqT0o
Gen-AI 회사 데이터베이스:
ChinAI #191: AI Venture Capital Trends Report
2021년 말 기준, 중국 AI 분야 스타트업 현황:
스타트업 7,362개. 펀딩
매년 신규 창업 추세: ‘15–17년 피크이후 감소 추세. (하지만, Gen AI 기반으로 ‘22년부터 다시 상당 규모로 rebound될 것으로 예상됨)
매년 VC 펀딩 규모: $35b (’20) → $57b (’21). 투자 규모는 계속 급증 추세
[ChatGPT]
ChatGPT explosion
ChatGPT — What is it, what is it good at, and will it replace Google? — Mythical AI
ChatGPT: Optimizing Language Models for Dialogue — Open AI
Cameron R. Wolfe on Twitter: “ChatGPT quick overview” / Twitter
OpenAI에서 ChatGPT 모델 발표. 인간과 채팅 대화 가능
특징:
GPT-3.5를 interactive 대화에 맞게 fine-tune (supervised learning 방식)
PPO (Proximal Policy Learning): RLHF (reinforcement learning with human feedback) 방식
이제 ChatGPT (류의 LM)이 Google 검색을 대체할 것이라는 전망이 나오기 시작.
구글 검색이 인터넷에 쌓인 정보를 잘 정리해 두었다가 검색 요청에 대응해서 찾아 주는 데이터베이스/인터페이스라고 보면, 이 전체 데이터를 학습하고 그 기반으로 답을 (ChatGPT는 채팅 형태로) 주는 LLM도 기본적으로는 같은 역할을 다른 인터페이스로 해 주는 것.
(특정 자료, 문서를 찾는 것은 아니지만) 대부분의 일반적인 검색을 대체하는 것은 시간 문제일 뿐. 특히, 문서, 자료 검색은 거의 없고, 큐레이션된 정보 (연예, 인물 등), 뉴스, 쇼핑 관련 링크를 검색하는데 최적화된 네이버 검색을 대체하는 형태가 먼저 일어날 듯
ChatGPT and Endless Media | The Generalist
Generative AI 기술을 통해, 이제 텍스트, 이미지, 동영상 등 모든 미디어의 컨텐츠를 on-demand로 무제한 생성해 내는 것이 가능해짐. 이로 인해 미디어 분야가 가장 먼저 disrupt될텐데, 어떤 변화가 일어날지에 대한 생각들 및 예. (전반적으로 gloomy함)
IP 기반 (예: 해리포터, 마블): 실시간, 무제한으로 사용자가 원하는 컨텐츠를 on-demand로 서비스하는 subscription service
새로운 IP: 무한히 많은 새로운 컨텐츠를 만들어 내는 실험장 → 새로운 비즈 모델? 많은 사람들이 공유하는 공통 theme (예: 해리포터 스토리) 없어지는 사회는 어떤 모습일까?
예술가: AI와 협력하는, 상호 보완하는 새로운 모델이 만들어질 수도 있음 → 어떻게?
NPC Character Design In The AI Era — Naavik
ChatGPT는 이제 게임의 NPC 디자인에도 큰 영향을 미칠 것으로 보임. 특히, 아래 측면에서.
how the game contextualizes scenarios based on player action; that is, each NPC interacts with the player differently depending on how the player chooses to progress through the game
How to Put More “Character” Into Your NPCs — The Pause Button
이미 NPC에 개성을 추가하는 것에 대한 고민이 게임 분야에는 이미 있어왔고,
Inworld.ai’s Arcade mode 를 보면, AI를 통해 직접 채팅할 수 있는 다양한 캐릭터들 예도 있음
ChatGPT로 가능한 일들:
최근 ChatGPT의 놀라운 능력에 대한 글 리스트
ChatGPT — Where it lacks use cases | Cookup AI
반면 ChatGPT가 부족한 부분들
Trending ChatGPT conversations | Cookup AI
ChatGPT 관련 (주로 Twitter) 글 리스트
그리고, 무수히 많은 ChatGPT 적용 예:
Tech reviewer, a guide on using Stripe webhooks, but in limerick form, writing college essays, write touching poems in the style of Edgar Allan Poe, write film synopses, write feared film critic, writing classical music, in the style of Beethoven, make ambient music with Tone.js, write code from scratch, Write a simple web scraper in Python, a new receipe website, with 2 recipes and an image, write spreadsheets formulas, build a Postgres database, build a Linux operating system terminal able to navigate, read, write and execute scripts, Telegram bot, generate AIart prompts, explain a complicated regex with no context, explain the most complex algorithms in the style of a 1940’s gangster, with Python code examples, get accurate answers to coding interview questions, write Jira tickets, research like a topic expert on topics I’m not an expert on, create the accompanying YouTube script with timestamps, brainstorm new product ideas, get ideas to improve existing features, expand / improve your documentation, managing your SEO projects, e.g. by creating compelling titles and meta descriptions, perform keyword research and provide a list of keywords to target, categorize your keywords in clusters, create a comprehensive SEO content plan based on specific themes and keywords, finding bugs in code and explaining them, finding exploits in code, writing genuinely good song lyrics, writing essays and giving detailed feedback on them, explaining concepts in the voice of fictional characters acting as a virtual machine, browsing the web to answer questions, write decent college essays, explain algorithms as movie character, write biblical verses for funny topics, write limericks about Gatorade
DataChazGPT on Twitter: “Impressive content generation capabilities of ChatGPT” / Twitter
Shital Shah on Twitter: “ChatGPT ‘explosion’” / Twitter
Ben Tossell on Twitter: “11 business ideas you could build on ChatGPT:” / Twitter
zswitten on Twitter: “Thread of known ChatGPT jailbreaks” / Twitter
Everything We Know About ChatGPT So Far — L-Space Diaries
Altryne on Twitter: “ChatGPT on Telegram” / Twitter
Building A Virtual Machine inside ChatGPT — Engraved
Brendan Dolan-Gavitt on Twitter: “ChatGPT exploits a buffer overflow” / Twitter
Brendan Dolan-Gavitt on Twitter: “ChatGPT exploits a buffer overflow” / Twitter
Joe Davies on Twitter: “ChatGPT + Quillbot = 100% human content in Originality” / Twitter
Aaron Kemmer on Twitter: “We used ChatGPT to WRITE and DIRECT a film in a weekend” / Twitter
마루360에 입주해있는 팀원입니다. 그로우앤베터 소식을 늘 접하고 있었지만 회원가입을 한 적은 없는데 바로 회원가입하고 수강 신청했네요 :-) ㅎ