세레브라스가 띄운 '젬마 4', 초당 1,800토큰 — '눈 달린 AI'가 실시간이 되는 순간
세레브라스가 구글의 오픈 모델 젬마 4를 GPU보다 35배 빠른 초당 1,800토큰으로 구동해 'AI가 이미지를 보고 판단하는' 멀티모달 작업을 처음으로 실시간 영역으로 끌어올렸으며, 이는 단순한 속도 향상을 넘어 만들 수 있는 AI 제품의 종류 자체를 바꾼다는 소식입니다.
AI 반도체 기업 **세레브라스(Cerebras)**가 구글 딥마인드의 오픈 모델 **'젬마 4(Gemma 4) 31B'**를 자사 추론 플랫폼에서 초당 1,800토큰이 넘는 속도로 구동하는 데 성공했다고 공식 블로그에서 6월 29일 밝혔습니다. 회사는 이를 "세계에서 가장 빠른 멀티모달(multimodal) 모델"이라고 소개했습니다.
언뜻 보면 '어떤 칩 회사가 어떤 모델을 빠르게 돌렸다'는 흔한 기술 발표처럼 보입니다. 하지만 이 소식의 핵심은 속도 숫자 자체가 아니라, 그 속도가 'AI가 이미지를 보고 판단하는 작업'을 처음으로 실시간으로 만들었다는 데 있습니다. 왜 이게 의미가 있는지, 생소한 용어부터 차근차근 풀어보겠습니다.
먼저 용어 정리 — 멀티모달, 추론 속도, 세레브라스
세 가지 개념만 잡으면 이 발표가 쉽게 읽힙니다.
**멀티모달(multimodal)**은 AI가 글자뿐 아니라 이미지·영상·소리 같은 여러 형태의 입력을 함께 이해하는 능력입니다. 텍스트만 주고받던 챗봇과 달리, 멀티모달 모델은 스크린샷·문서·차트·화면 상태 같은 '그림'을 보고 내용을 파악할 수 있습니다. 쉽게 말해 'AI에게 눈이 달린 것'입니다.
**추론 속도(토큰/초, TPS)**는 AI가 답을 만들어내는 속도입니다. AI는 글을 '토큰'이라는 단위로 잘게 쪼개 한 조각씩 생성하는데, 초당 토큰 수가 많을수록 답이 빨리 나옵니다. 세레브라스가 내세운 1,800TPS는 인공분석(Artificial Analysis)의 측정 기준으로 일반적인 GPU 환경보다 약 35배 빠른 수준입니다.
세레브라스는 이 속도를 가능하게 한 회사입니다. 일반적인 AI 연산은 엔비디아 GPU 여러 개를 묶어서 처리하는데, 세레브라스는 접시만 한 크기의 거대한 단일 칩(이른바 '웨이퍼스케일' 칩)을 만들어 추론 속도에 특화한 곳입니다. 앞서 오픈AI가 GPT-5.6 솔(Sol)을 7월에 세레브라스 위에서 초당 750토큰으로 제공하겠다고 밝힌 바 있는데, 같은 회사가 이번엔 구글 모델로 더 높은 속도를 낸 것입니다.
젬마 4는 어떤 모델인가 — '20배 큰 모델을 이기는' 오픈 모델
이번 발표의 주인공인 젬마 4를 알아야 그림이 완성됩니다.
젬마 4는 구글 딥마인드가 2026년 4월 2일 공개한 오픈 가중치(open-weight) 모델입니다. 구글 공식 블로그에 따르면, 구글의 상용 최상위 모델인 제미나이 3(Gemini 3)와 같은 연구 기반으로 만들어졌으면서도, 누구나 내려받아 자기 하드웨어에서 돌릴 수 있도록 아파치 2.0 라이선스로 풀렸습니다. 상업적 이용에 제약이 거의 없는 개방형 라이선스라, 기업 입장에서 특정 업체에 묶이지 않고(벤더 종속 없이) 쓸 수 있다는 게 큰 장점입니다.
성능도 주목할 만합니다. 이번에 세레브라스가 올린 31B 모델은 젬마 4 제품군의 최상위 모델로, 업계 표준인 아레나(Arena) 리더보드에서 전 세계 오픈 모델 3위에 올랐고, 자신보다 20배 큰 모델들과 견주는 성능을 냅니다. 세레브라스의 설명에 따르면 젬마 4 31B는 지능 지표에서 앤트로픽의 클로드 하이쿠 4.5(Claude Haiku 4.5)와 비슷한 수준인데, 세레브라스 위에서는 하이쿠보다 18배 빠르게 돌아간다고 합니다.
여기서 한 가지 기술적 포인트. 젬마 4 31B는 'dense(밀집)' 모델입니다. 모든 매개변수를 매번 활성화해 쓰는 방식인데, 이 덕분에 큰 메모리 부담 없이도 높은 지능을 낸다는 게 회사 측 설명입니다. 즉 '적당한 크기로 똑똑하면서 서비스하기에도 효율적인' 절충점을 노린 모델입니다.
핵심 — '속도'가 왜 제품 자체를 바꾸나
이 발표에서 가장 중요한 대목은 "왜 빠른 게 그렇게 중요한가"입니다. 단순히 '답이 빨리 나와서 편하다'는 차원이 아닙니다.
멀티모달·에이전트 작업은 모델을 한 번만 부르고 끝나지 않습니다. 화면을 살펴보고 → 분석하고 → 결과를 만들고 → 도구를 호출하고 → 결과를 확인하고 → 다시 시도하는 식으로 여러 번 반복합니다. 이런 반복 고리(loop)가 느린 속도에서는 답답해서 실시간으로 쓸 수가 없습니다. 그런데 초당 1,800토큰이면 이 고리가 사람의 작업 속도와 발맞춰 돌아갑니다. 검증과 재시도를 더 많이 끼워 넣을 수 있어, 결과의 품질 자체가 올라갑니다.
구글 딥마인드의 로건 킬패트릭은 이 변화를 이렇게 표현했습니다. 모든 모델이 초당 2,000토큰으로 돌아간다면 사람들은 같은 제품을 더 빠르게 만드는 게 아니라 아예 다른 종류의 제품을 만들게 될 것이라는 의미의 말이었습니다. 속도가 단순한 편의가 아니라, 만들 수 있는 제품의 종류 자체를 바꾼다는 뜻입니다.
세레브라스가 제시한 활용 예시를 보면 이 말이 와닿습니다.
- 스크린샷에서 통찰로: 복잡한 대시보드 화면이나 문서 페이지를 던지면, 무엇이 중요한지 짚어내고 구조화된 결과를 실시간으로 돌려줍니다.
- 긴 문서 요약: 연구 보고서나 기술 문서를 넘기면 한자리에서 읽고, 반응하고, 다시 질문할 수 있을 만큼 빠르게 핵심 요약을 돌려줍니다.
- 스크린샷에서 수정 코드로: 깨진 UI 화면과 소스 코드, 콘솔 오류를 함께 주면 최소한의 수정 패치와 검증 방법을 돌려줍니다.
한국 독자에게 어떤 의미가 있을까
이 소식은 국내 개발자와 기업에게 몇 가지 실질적 시사점을 줍니다.
먼저 '오픈 모델 + 빠른 추론'이라는 조합의 부상입니다. 그동안 강력한 AI를 쓰려면 오픈AI나 앤트로픽 같은 회사의 폐쇄형 API에 의존하는 것이 일반적이었습니다. 하지만 아파치 2.0 라이선스의 젬마 4처럼 자유롭게 쓸 수 있는 오픈 모델이 세레브라스 같은 전용 하드웨어와 만나 충분히 빠른 속도를 내면, 국내 기업도 외부 API 종속에서 벗어나 자체 인프라에서 강력한 멀티모달 AI를 운영할 선택지가 넓어집니다. 앞서 다룬 사카나 AI의 '단일 벤더 의존 위험'이나 미국의 AI 수출 통제 흐름을 떠올리면, 이런 개방형 대안의 가치는 더 분명해집니다.
다음으로 새로운 응용 분야의 가능성입니다. 화면을 보고 판단하는 '컴퓨터 사용(computer use)' 에이전트, 문서·차트를 실시간 분석하는 업무 자동화, 로보틱스처럼 즉각적인 시각 판단이 필요한 분야가 이번 속도 향상의 직접적 수혜 영역입니다. 국내에서 RPA(업무 자동화)나 문서 처리, 제조 현장 검사 같은 서비스를 만드는 기업이라면 눈여겨볼 만합니다.
다만 짚어둘 점도 있습니다. 세레브라스가 내세운 '35배', '18배' 같은 수치는 회사 측이 밝힌 대로 제3자 벤치마크와 자체 테스트를 토대로 한 것이고, 실제 속도는 작업 종류와 설정에 따라 달라질 수 있습니다. 또 현재 세레브라스의 젬마 4 31B는 한시적 '공개 프리뷰'로 제공되는 만큼, 정식 서비스의 안정성과 가격 구조는 앞으로 확인이 필요합니다.
정리하며
이번 발표의 핵심은 '구글의 오픈 모델'과 '세레브라스의 빠른 칩'이 만나 AI의 시각 처리를 실시간 영역으로 끌어올렸다는 점입니다. 그동안 GPU 위에서 굼뜨게 느껴지던 '눈 달린 AI'의 반복 작업이, 비로소 사람과 발맞춰 돌아갈 만큼 빨라진 것입니다.
남는 질문은 이렇습니다. 모든 AI가 초당 수천 토큰으로 보고 판단하는 시대가 오면, 우리는 지금과 전혀 다른 어떤 제품과 서비스를 만들게 될까요? 그리고 폐쇄형 거대 모델과 '개방형 모델 + 전용 하드웨어' 조합 사이에서, 기업들은 어떤 길을 택하게 될까요? 속도가 임계점을 넘어서는 지금, 그 답이 조금씩 모습을 드러내기 시작했습니다.
이 글은 세레브라스 공식 블로그(2026년 6월 29일, James Wang)를 바탕으로, 구글 딥마인드 젬마 4 발표 자료와 관련 기술 보도를 참고해 작성되었습니다.
참고 출처
공식 1 · 보조 0- 세라브라스 젬마4공식세라브라스