낙서 그림으로도 영화 속 장면 찾아내는 제미나이1.5…30배 빠르다|동아일보

bet38 아바타


구글의 멀티모달 AI 제미나이1.5가 버스터 키튼 감독의 ‘셜록 주니어’라는 무성영화를 해석하고 있다. 시연자가 그린 조악한 낙서에 해당되는 장면을 찾아내는 모습.(구글 공식 유튜브 영상 갈무리)

구글의 최신 인공지능(AI) ‘제미나이(Gemini) 1.5’는 전작 대비 30배 빠른 정보처리 속도를 앞세워 문서·영상 등을 해석한다. 조악한 낙서 등 추상적 명령도 이해해 자료에서 그에 해당하는 부분을 맥락에 맞게 찾아낸다.

19일 업계에 따르면 구글은 최근 멀티모달 AI 제미나이 1.5를 공식 블로그를 통해 공개했다.

제미나이 1.5는 지난해 12월 울트라·프로·나노 3가지 사양으로 공개된 제미나이 1.0의 개선판이다.

동시 토큰 처리수를 늘려 긴 문맥의 자료를 빠르게 처리하는 데 방점을 뒀다. 토큰은 문서, 영상 등 데이터가 지닌 최소 의미 단위다.

제미나이 1.5는 최대 100만 개의 토큰을 동시 처리한다. 전 세대 프로 모델과 비교 시 30배 정도 빠르다. 전 세대 울트라와 비교 시 성능은 유사하지만 더 적은 컴퓨팅 자원을 소모한다.

선다 피차이 구글 최고경영자(CEO)는 “이번 모델은 긴 문맥을 이해하는 데 있어 획기적인 발전을 이뤄냈다”며 “최대 100만 개 토큰을 연속으로 처리해 정보 처리량을 극대화했다”고 설명했다.

이번 모델은 텍스트뿐 아니라 영상, 음원 등 시청각 데이터를 처리하는 멀티모달 기능을 지원한다.

구글 공식 유튜브에는 제미나이1.5가 버스터 키튼 감독의 ‘셜록 주니어’라는 무성영화를 해석하는 시연이 올라오기도 했다. 44분 길이의 이 영화는 토큰으로 환산 시 약 70만 개 분량이다.

영화를 분석한 제미나이 1.5에 “주머니에서 종이를 꺼내는 순간을 찾고 주요 정보를 요약해 줘”라고 명령했다. 모델은 1분 내로 전당포 티켓이 주머니에서 꺼내지는 장면을 집어냈다. 촬영된 티켓의 시각적 정보를 파악해 티켓 서명한 등장인물까지 부연했다.

사람이 그린 조악한 낙서도 명령으로서 이해했다.

시연 팀은 물탱크에서 쏟아지는 물을 맞는 사람을 조악한 낙서로 그려 제미나이에 보여준 뒤 “이 순간이 언제야”라고 물었다.

이 명령에도 제미나이는 1분 내로 해당 장면에 해당하는 영상 시간대를 답했다.

4차 산업혁명 시대

(서울=뉴스1)

Tagged in :

bet38 아바타

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다