안녕하세요. 김태헌 과학전문가입니다.
7월 28일(현지시간) 인공지능(AI) 연구 기업 '구글 딥마인드(Google DeepMind)'는 로봇용 대용량 시각언어행동(VLA) 모델 'RT-2'를 공개했다.
RT-2는 최근 잘 알려진 '챗GPT'나 '빙(Bing) 챗봇'처럼 대규모 데이터를 기반으로 학습한다. 차이는 학습하는 데이터 타입이다. 다른 AI들이 문자로 된 데이터를 중점적으로 학습하는 반면 RT-2는 문자뿐만 아니라 이미지까지 학습한다. 훈련에는 PaLI-X와 PaLM-E라는 두 가지 모델을 사용한다. 전자는 온라인에서 설명이 첨부된 이미지를 찾아 학습에 활용하는 모델, 후자는 언어를 해석하는 모델이다.