내용만 입력해주면 동영상을 만들어주는 '소라' 에 적용된 인공지능 기술이 무엇인가요?
소라가 만든 영상을 시청하고서 AI 창작물이라고는 믿기지 않을 정도로 놀라웠습니다.
그런데 어떻게 단어를 입력한 뒤 그 단어의 특성(재질이나 운동성 등)을 아주 잘 이해하여 구현해 주는걸까요? 대체 어떤 AI기술인지 자세히 설명 부탁드립니다!
안녕하세요. 김재훈 전문가입니다.
소라는 OpenAI가 개발한 텍스트 투 비디오 생성 AI로 입력된 단어나 문장을 이해하고 이를 시각적으로 구현하는 데에 다양한 인공지능 기술이 복합적으로 작동합니다 핵심 기술은 대규모 멀티모탈 변화기 기반의 모델로 자연어 처리로 문장의 의미를 정밀하게 파악한 후 그 의미를 반영한 물리적 특성을 시뮬레이션하여 시간 흐름에 따라 일관되게 움직이는 프레임을 생성합니다
안녕하세요. 아하의 전기전자 분야 전문가입니다.
'소라'와 같은 프로그램에서 사용되는 인공지능 기술은 주로 자연어 처리(NLP)와 컴퓨터 비전 기술에 기반하고 있습니다. 자연어 처리 모델은 질문자분이 입력한 텍스트를 이해하고, 그 의미와 맥락을 파악하는 데 사용됩니다. 이후 컴퓨터 비전과 딥러닝 모델, 특히 생성적 적대 신경망(GAN) 혹은 변형형 오토인코더(VAE) 같은 기법을 활용해 텍스트를 시각적인 요소로 변환합니다. 이 과정에서 텍스트의 특성과 맥락이 반영되어 더욱 실감 나는 영상이 만들어집니다. 이러한 기술들은 딥러닝의 발전 덕분에 가능해졌으며, 다양한 데이터셋과 트레이닝을 통해 점점 더 정확하고 자연스러운 결과를 도출할 수 있습니다.
안녕하세요. 장철연 과학전문가입니다.
기존 영상들은 디테일한 문장구조의 텍스트 기반으로 영상을 제작했다면 소라는 처음으로 음성까지 지원이 가능합니다