내용만 입력해주면 동영상을 만들어주는 '소라' 에 적용된 인공지능 기술이 무엇인가요?

Question

소라가 만든 영상을 시청하고서 AI 창작물이라고는 믿기지 않을 정도로 놀라웠습니다.

그런데 어떻게 단어를 입력한 뒤 그 단어의 특성(재질이나 운동성 등)을 아주 잘 이해하여 구현해 주는걸까요? 대체 어떤 AI기술인지 자세히 설명 부탁드립니다!

김재훈 · Answer

안녕하세요. 김재훈 전문가입니다.소라는 OpenAI가 개발한 텍스트 투 비디오 생성 AI로 입력된 단어나 문장을 이해하고 이를 시각적으로 구현하는 데에 다양한 인공지능 기술이 복합적으로 작동합니다 핵심 기술은 대규모 멀티모탈 변화기 기반의 모델로 자연어 처리로 문장의 의미를 정밀하게 파악한 후 그 의미를 반영한 물리적 특성을 시뮬레이션하여 시간 흐름에 따라 일관되게 움직이는 프레임을 생성합니다

anonymous · Answer

안녕하세요. 아하의 전기전자 분야 전문가입니다.'소라'와 같은 프로그램에서 사용되는 인공지능 기술은 주로 자연어 처리(NLP)와 컴퓨터 비전 기술에 기반하고 있습니다. 자연어 처리 모델은 질문자분이 입력한 텍스트를 이해하고, 그 의미와 맥락을 파악하는 데 사용됩니다. 이후 컴퓨터 비전과 딥러닝 모델, 특히 생성적 적대 신경망(GAN) 혹은 변형형 오토인코더(VAE) 같은 기법을 활용해 텍스트를 시각적인 요소로 변환합니다. 이 과정에서 텍스트의 특성과 맥락이 반영되어 더욱 실감 나는 영상이 만들어집니다. 이러한 기술들은 딥러닝의 발전 덕분에 가능해졌으며, 다양한 데이터셋과 트레이닝을 통해 점점 더 정확하고 자연스러운 결과를 도출할 수 있습니다.

장철연 · Answer

안녕하세요. 장철연 과학전문가입니다.기존 영상들은 디테일한 문장구조의 텍스트 기반으로 영상을 제작했다면 소라는 처음으로 음성까지 지원이 가능합니다

전기·전자

전기·전자

내용만 입력해주면 동영상을 만들어주는 '소라' 에 적용된 인공지능 기술이 무엇인가요?