images.ctfassets.net

챗봇 시대는 끝났다 — ChatGPT가 브라우저를 직접 조작한다

ChatGPT AgentAI 워크플로우

Introducing Operator

Introducing ChatGPT agent: bridging research and action

Computer-Using Agent

"캘린더 확인해서 다음 주 미팅 브리핑 해줘." "일본식 아침 4인분 재료 사서 배달시켜줘." "경쟁사 3곳 분석해서 슬라이드 덱 만들어줘." — 이게 전부 ChatGPT한테 시키면 되는 일이 됐어요. 챗봇 시대는 끝났습니다. 이제 AI가 직접 브라우저를 열고, 클릭하고, 입력하고, 결과를 가져다줘요.

3초 요약

작업 지시 → AI가 브라우저 조작 → 웹사이트 탐색/클릭/입력 → 결과 정리/보고 → 확인 후 실행

이게 뭔데?

ChatGPT Agent는 OpenAI가 2025년 7월에 출시한 기능이에요. 핵심은 간단해요 — ChatGPT가 자기만의 가상 컴퓨터를 갖게 된 거예요. 브라우저도 열고, 터미널도 쓰고, 코드도 실행하고, 파일도 다운받아요. 사람이 컴퓨터 앞에서 하는 거의 모든 걸, AI가 대신 해줘요.

시작은 2025년 1월의 Operator였어요. OpenAI가 "AI가 브라우저를 대신 조작한다"는 컨셉으로 내놓은 연구 프리뷰였죠. 이걸 구동하는 모델이 CUA — Computer-Using Agent예요. GPT-4o의 시각 능력에 강화 학습을 결합해서, 화면을 스크린샷으로 "보고" 마우스와 키보드로 "조작"하는 모델이에요.

근데 Operator에는 한계가 있었어요. 웹은 잘 돌아다니는데 깊은 분석은 못 했고, Deep Research는 분석은 잘하는데 웹사이트를 클릭하진 못했죠. 7월에 나온 ChatGPT Agent는 이 두 가지를 하나로 합친 거예요. OpenAI 연구원 Casey Chu의 말이 정확해요: "이 두 접근법은 사실 깊이 상호보완적이에요. Operator는 긴 문서를 읽는 데 약하지만 Deep Research는 그게 잘 돼요. 반대로 Deep Research는 인터랙티브한 웹페이지를 다루기 어렵지만, 그건 Operator가 잘하죠."

$20/월

Plus 요금 (월 40회)

5~30분

작업 완료 시간

65.4%

WebArena 벤치마크

실제로 어떤 도구들을 쓸 수 있는지 정리하면 이래요:

비주얼 브라우저
웹사이트를 눈으로 보고 클릭하고 스크롤해요. 사람처럼 쿠키 팝업도 닫고, 폼도 작성하고, 검색 결과도 필터링해요.
텍스트 브라우저
긴 문서를 빠르게 읽고 분석할 때 쓰이는 브라우저. 비주얼 브라우저보다 가볍고 빨라요.
터미널 + 코드 실행
파이썬 스크립트 실행, 파일 다운로드, 데이터 가공까지. 가상 컴퓨터 안에서 자유롭게 돌아가요.
앱 커넥터
Gmail, Google Drive, GitHub 등을 연결하면 이메일 확인, 일정 조회 같은 것도 가능해요.

자기 교정(Self-Correct) 기능

CUA 모델의 핵심 특징이에요. 작업 중에 실수하면 스스로 알아채고 뒤로 돌아가서 다시 시도해요. DataCamp 테스트에서도 웹사이트를 잘못 읽었다가 이전 페이지로 돌아가서 교정하는 모습이 확인됐어요.

뭐가 달라지는 건데?

지금까지 AI 어시스턴트는 "대화"만 했어요. 아무리 똑똒해도 결국 "이렇게 하세요"라고 알려주는 게 한계였죠. ChatGPT Agent는 그 한계를 넘었어요 — 대화에서 실행으로, 조언에서 행동으로 바뀐 거예요.

	기존 ChatGPT	ChatGPT Agent
역할	정보 제공, 답변 생성	직접 브라우저 조작 + 작업 실행
웹 검색	검색 결과 요약	직접 사이트 방문, 클릭, 필터링
데이터 분석	코드 작성해서 보여줌	데이터 수집 + 분석 + 스프레드시트 생성
예약/주문	방법 안내	직접 사이트에서 예약/장바구니 담기
프레젠테이션	내용 초안 작성	슬라이드 직접 생성 + 편집 가능 파일 제공
제어권	없음 (출력만)	중간에 개입/중단/인수 가능

OpenAI가 밀고 있는 파트너십도 중요해요. DoorDash, Instacart, OpenTable, Priceline, StubHub, Uber 같은 서비스들과 협력 중이에요. 에이전트가 이 사이트들에서 직접 예약하고, 주문하고, 티켓을 사는 거죠. Instacart CPO Daniel Danker는 "식료품 주문 같은 프로세스를 믿기 어려울 정도로 쉽게 만들어주는 기술적 돌파구"라고 평가했어요.

실제 벤치마크 성적도 좋아요. WebArena에서 65.4%, Humanity's Last Exam에서 41.6%(SOTA), 데이터 분석 벤치마크 DSBench에서는 사람 성적(64.1%)을 넘는 89.9%를 기록했어요.

근데 솔직히 말하면, 아직 완벽하진 않아요. Understanding AI의 Timothy B. Lee가 장보기 테스트를 해봤는데, 16개 품목 중 15개를 정확하게 장바구니에 넣었지만 양파를 빠뜨렸고, 보안 모니터가 로그인을 차단하는 해프닝도 있었어요. DataCamp 테스트에서는 유네스코 데이터를 222개국에서 수집하는 데 성공했지만, 요약 탭을 만들라는 지시를 잊어버렸어요.

아직 알아둘 것

ChatGPT Agent는 초기 단계예요. 복잡한 디자인 작업(Canva에서 이미지 콜라주 만들기 등)에서는 75분 넘게 걸리고도 결과가 어설프다는 리뷰가 있어요. 중요한 결제나 이메일 전송 같은 작업에서는 반드시 직접 확인하고, 은행 거래 같은 고위험 작업은 아예 거부하도록 설계되어 있어요. 리서치와 데이터 수집에 강하고, 시각적/디자인 작업에는 아직 약해요.

핵심만 정리: 시작하는 법

ChatGPT 유료 구독
Plus($20/월, 월 40회), Pro($200/월, 월 400회) 중 선택해요. Plus로 시작하는 게 좋아요.
Agent 모드 활성화
ChatGPT 대화창에서 도구 드롭다운을 열고 "agent mode"를 선택하거나, /agent를 입력하면 돼요.
첫 번째 작업 맡기기
간단한 것부터 시작해요. "이번 주 서울 날씨 확인해서 정리해줘"나 "경쟁사 A, B, C 가격 비교표 만들어줘" 같은 리서치 작업이 좋아요.
앱 커넥터 연결 (선택)
Gmail, Google Calendar 등을 연결하면 "내 캘린더 확인해서 이번 주 빈 시간 알려줘" 같은 작업도 가능해요.
반복 작업 자동화
완료된 작업은 시계 아이콘을 눌러 매일/매주/매월 반복 예약할 수 있어요. "매주 월요일 아침 경쟁사 뉴스 정리해줘" 같은 루틴을 만들어보세요.