Ethan Mollick The Shape of the Thing 블로그 글 대표 이미지

substackcdn.com

와튼 교수가 본 AI 지수적 성장의 실체 — "이번엔 진짜 다를 수 있다"

AI 지수적 성장, Ethan Mollick, Software Factory, RSI, METR 벤치마크ai-trend

The Shape of the Thing — Ethan Mollick

Measuring AI Ability to Complete Long Tasks — METR

Generative Coding: 10 Breakthrough Technologies 2026 — MIT Technology Review

AI가 매년 빨라지고 있다는 건 누구나 체감하고 있어요. 그런데 Wharton 경영대학원의 Ethan Mollick 교수는 한 발 더 나아갑니다 — 벤치마크 차트, 소프트웨어 팩토리 실험, AI 기업 CEO 발언까지 엮어서 "이 변화는 지수적(exponential)이고, 일의 본질을 바꾸는 초기 신호가 이미 나타났다"고 주장해요.

3초 요약

AI 능력이 해마다 지수적으로 개선 중 — 이미지, 코딩, 추론 전 영역

3명이 AI만으로 프로덕션 소프트웨어를 출하하는 소프트웨어 팩토리 등장

AI 기업들이 재귀적 자기개선(RSI)을 공식 로드맵에 올려놓은 상태

이게 뭔데?

Mollick 교수가 2026년 3월 발행한 블로그 글 "The Shape of the Thing"은 AI 성능 개선의 궤적을 시각적·정량적으로 보여주는 일종의 현황 보고서예요. 핵심 주장은 세 가지로 요약돼요.

① 지수적 개선은 수치로 증명된다. GPQA(대학원 수준 Q&A), GDPval(실무 전문가 대비 AI), Humanity's Last Exam, Pencil Puzzle Bench 등 네 가지 서로 다른 벤치마크 모두에서 AI 성능이 지수 곡선을 따르고 있어요. METR의 "Long Tasks" 평가에서는 AI가 자율적으로 처리할 수 있는 작업 시간이 기하급수적으로 늘어나고 있다는 결과가 나왔고요.

② "일하는 방식"이 이미 바뀌고 있다. 보안 소프트웨어 기업 StrongDM은 3명으로 구성된 팀이 AI 에이전트만으로 코드 작성·테스트·배포까지 완료하는 "Software Factory"를 공개했어요. 규칙은 간단합니다 — "사람이 코드를 쓰지 않는다", "사람이 코드를 리뷰하지 않는다." 대신 엔지니어 한 명당 하루에 1,000달러 이상을 AI 토큰에 쓰고요.

③ 재귀적 자기개선(RSI)이 현실이 됐다. Anthropic의 Dario Amodei는 "엔지니어들이 이제 직접 코드를 거의 작성하지 않는다"고 밝혔고, OpenAI의 최신 모델은 "자기 자신을 만드는 데 기여한 최초의 모델"이라고 발표했어요. 구글 딥마인드의 Demis Hassabis도 모든 주요 AI 연구소가 이 피드백 루프를 닫으려고 적극적으로 작업 중이라고 확인했고요.

뭐가 달라지는 건데?

이전의 기술 혁신과 AI 시대를 비교하면 속도와 범위가 확연히 다릅니다.

	이전 기술 혁명	AI 지수적 성장 시대	시사점
개선 속도	무어의 법칙: 2년마다 2배	AI 벤치마크: 연간 10배 이상 개선	준비할 시간이 훨씬 짧다
직업 소멸	1950년 이후 사라진 직업 1개 (엘리베이터 오퍼레이터)	코딩, 리서치, 콘텐츠 등 지식노동 전반 재편 시작	특정 직업이 아니라 "작업 단위"로 대체
조직 실험	수십 년에 걸쳐 점진적 적용	Software Factory처럼 수주 만에 급진적 실험	빨리 실험하는 조직이 우위
자기개선	기계가 기계를 만들긴 했지만 설계는 인간	AI가 다음 세대 AI를 직접 개선 (RSI)	개선 곡선이 더 가팔라질 수 있다

물론 반론도 있어요. 일부 분석가는 Mollick이 제시한 벤치마크 차트가 실제로는 지수 곡선이 아니라 로지스틱 S-커브에 더 가깝다고 지적합니다. 100점 만점인 벤치마크에서 지수 곡선을 피팅하면 언젠가 100%를 뚫고 올라가는 비현실적 예측이 되니까요. 다만 대부분의 전문가는 "방향은 확실히 위"라는 점에서는 동의하고 있어요.

핵심만 정리: 시작하는 법

벤치마크 리터러시 키우기
METR Time Horizons, GPQA, Humanity's Last Exam 등 주요 평가 지표를 북마크하세요. "AI가 얼마나 빨라졌는지"를 감이 아닌 데이터로 추적할 수 있어요.
내 업무에서 "에이전트 가능 영역" 찾기
StrongDM 사례처럼 사람이 코드를 안 보는 게 목표가 아니에요. 내 업무 중 "프롬프트 → 결과물 → 검토"로 전환 가능한 작업부터 골라 에이전트에 맡겨보세요.
소규모 Software Factory 실험 설계하기
팀 단위로 1~2주짜리 "AI-only 스프린트"를 돌려보세요. 코딩이 아니더라도 리서치, 보고서 작성, 디자인 시안 등 어떤 영역이든 가능합니다.
"변화 속도" 자체를 모니터링하기
Mollick이 강조하는 핵심은 특정 기술이 아니라 "변화의 속도"예요. 분기마다 AI 벤치마크 트렌드, 주요 기업의 AI 채택 발표, 정책 변화를 정리하는 루틴을 만들어보세요.
RSI 뉴스에 안테나 세우기
AI 기업들이 "자기 모델로 다음 모델을 만들었다"는 발표를 점점 더 자주 하고 있어요. 이 루프가 실제로 닫히는 순간 변화 속도가 한 단계 더 올라갈 수 있으니, OpenAI·Anthropic·Google DeepMind의 모델 릴리즈 노트를 정기적으로 확인하세요.

📖 Mollick의 에이전트 시대 가이드

같은 저자가 쓴 "A Guide to Which AI to Use in the Agentic Era"는 어떤 AI를 어떤 용도로 써야 하는지 실전 가이드를 제공해요. 에이전트 시대의 도구 선택법이 궁금하다면 필독.

🔬 METR Time Horizons 원본 리포트

AI가 자율적으로 처리 가능한 작업 시간이 기하급수적으로 증가하고 있다는 METR의 원본 연구. 벤치마크 방법론과 한계까지 투명하게 공개되어 있어요.

🏭 StrongDM Software Factory 테크니컬 가이드

3명 팀이 AI로만 소프트웨어를 만드는 구체적인 기법들을 공개한 사이트. Simon Willison과 Dan Shapiro의 외부 관찰기까지 읽으면 실제 운영의 강점과 약점을 균형 있게 파악할 수 있어요.

⚖️ 반론: "LLM은 지수적으로 개선되지 않는다"

Free Splains의 분석은 Mollick이 제시한 네 가지 벤치마크 차트를 하나씩 해체하며, 실제로는 로지스틱 성장(S-커브)에 더 가깝다고 주장해요. 양쪽을 함께 읽으면 균형 잡힌 시각을 가질 수 있어요.

자주 묻는 질문

AI 성능이 정말 지수적으로 개선되고 있나요?

Ethan Mollick은 GPQA, GDPval, Humanity's Last Exam, METR Long Tasks 등 여러 벤치마크에서 지수적 개선 추세를 보여줍니다. 다만 일부 분석가는 100점 만점 벤치마크의 특성상 로지스틱 S-커브에 더 가깝다고 반론합니다. 방향이 위를 향한다는 점에서는 대부분 동의합니다.

Software Factory가 실제로 사람 없이 소프트웨어를 만들 수 있나요?

StrongDM의 사례에서 3명의 엔지니어가 AI 에이전트만으로 프로덕션 소프트웨어를 출하했습니다. 다만 인간은 제품 로드맵 작성과 최종 결과물 검토를 담당하며, 완전한 무인 생산은 아닙니다.

재귀적 자기개선(RSI)이란 무엇인가요?

AI 시스템이 더 나은 AI 시스템을 만드는 데 사용되는 피드백 루프입니다. OpenAI는 최신 모델이 자기 자신을 만드는 데 기여한 첫 번째 모델이라고 밝혔고, Anthropic과 Google DeepMind도 이 루프를 닫기 위해 적극 작업 중입니다.