본문 바로가기
주식투자

Open AI, Sora - 텍스트로 동영상을 생성하는 미친 성능의 생성형 AI

by 비케이퀀트 2024. 2. 18.

Open AI가 또 한 번 대중에게 충격을 선사했습니다. 텍스트 프롬프트만으로 고퀄리티의 동영상을 생성하는 미친 성능의 생성형 AI, Sora를 발표한 것인데요. 자세한 내용 CNET의 리사 레이시의 기사로 알아보겠습니다.

 

 

Open AI Sora

 

OpenAI가 이제 단어를 매우 사실적인 동영상으로 변환합니다. 다만 현재는 전문가와 크리에이티브 제작자에게만 제한적으로 제공됩니다.

 

 

AI 스타트업 OpenAI가 텍스트-비디오 모델인 Sora를 공개했는데, 이는 제너레이티브 AI의 가능성에 대한 기준을 높일 수 있는 기술입니다.

 

구글의 텍스트 비디오 변환 도구인 뤼미에르와 마찬가지로 Sora는 사용 가능 여부가 제한되어 있습니다. 뤼미에르와 달리 Sora는 최대 1분 길이의 동영상을 생성할 수 있습니다.

 

 

 

텍스트-투-비디오는 2032년까지 1조 3천억 달러의 매출을 달성할 것으로 예상되는 이 분야에서 입지를 굳히고, 1년여 전 ChatGPT가 출시된 이후 제너레이티브 AI에 관심을 보인 소비자들을 사로잡기 위해 OpenAI, Google, Microsoft 등이 텍스트와 이미지 생성을 넘어선 새로운 영역을 모색하면서 제너레이티브 AI의 최신 무기 경쟁이 되고 있습니다.

 

ChatGPT와 Dall-E를 모두 개발한 OpenAI의 게시물에 따르면, 소라는 잘못된 정보, 혐오 콘텐츠, 편견과 같은 분야의 전문가인 '레드 팀원'이 "모델을 적대적으로 테스트"할 수 있으며 시각 아티스트, 디자이너, 영화 제작자가 크리에이티브 전문가로부터 추가적인 피드백을 얻을 수 있습니다.

 

이러한 적대적 테스트는 이미지와 동영상 제작에 AI를 사용할 때 우려되는 주요 영역인 딥페이크의 설득력 있는 가능성을 해결하는 데 특히 중요할 것입니다.

 

 

이 AI 스타트업은 조직 외부로부터 피드백을 얻는 것 외에도 "대중에게 어떤 AI 기능이 곧 출시될지 알리기 위해" 현재 진행 상황을 공유하고 싶다고 말했습니다.

 

 

강점

 

135단어에 달하는 한 예시를 포함해 긴 프롬프트를 해석하는 능력은 소라를 차별화할 수 있는 한 가지 요소입니다.

 

목요일에 공유한 샘플 동영상에서는 사람과 동물, 푹신한 괴물부터 도시 풍경, 풍경, 선 가든, 심지어 물속에 잠긴 뉴욕시까지 다양한 캐릭터와 장면을 생성할 수 있음을 보여줍니다.

 

이는 부분적으로는 OpenAI의 과거 Dall-E 및 GPT 모델에 대한 작업 덕분입니다. 텍스트-이미지 생성기 Dall-E 3는 9월에 출시되었습니다.

 

 

 

CNET의 스티븐 섕클랜드는 이를 "2022년에 출시될 Dall-E 2보다 한 단계 업그레이드된 모델"이라고 평가했습니다. (OpenAI의 최신 AI 모델인 GPT-4 터보는 11월에 출시되었습니다.)

 

특히, 소라는 Dall-E 3의 리캡처링 기술을 차용하여 "시각적 훈련 데이터에 대해 매우 설명적인 캡션"을 생성한다고 OpenAI는 말합니다.

 

"소라는 여러 캐릭터, 특정 유형의 동작, 피사체와 배경에 대한 정확한 디테일이 포함된 복잡한 장면을 생성할 수 있습니다."라고 포스트는 설명합니다.

 

"이 모델은 사용자가 프롬프트에서 요청한 내용뿐만 아니라 이러한 사물이 실제 세계에 어떻게 존재하는지도 이해합니다."

 

 

OpenAI가 공유한 샘플 동영상은 사람의 얼굴이 클로즈업되거나 바다 생물이 헤엄칠 때를 제외하고는 놀라울 정도로 사실적으로 보입니다. 그렇지 않으면 무엇이 진짜이고 무엇이 가짜인지 구분하기 어려울 수 있습니다.

 

또한 이 모델은 뤼미에르처럼 정지 이미지에서 비디오를 생성하고 기존 비디오를 확장하거나 누락된 프레임을 채울 수 있습니다.

 

"소라는 실제 세계를 이해하고 시뮬레이션할 수 있는 모델의 기반이 되며, 이는 AGI를 실현하는 데 중요한 이정표가 될 것으로 믿습니다."라고 포스트는 덧붙였습니다.

 

 

AGI(인공 일반 지능)는 인간과 유사한 지능에 더 가깝고 더 다양한 작업을 수행할 수 있는 능력을 포함하는 보다 발전된 형태의 AI입니다.

 

Meta와 DeepMind도 이 벤치마크에 도달하는 데 관심을 표명했습니다.

 

 

약점

 

OpenAI는 소라가 복잡한 장면의 물리학을 정확하게 묘사하고 원인과 결과를 이해하는 데 어려움을 겪는 등 약점이 있다고 인정했습니다.

 

"예를 들어, 사람이 쿠키를 한 입 베어 물었지만 나중에 쿠키에 물린 자국이 없을 수 있습니다."라고 게시물은 설명합니다.

 

그리고 어떤 쿠키가 남았는지 알아내기 위해 손으로 L자를 만들어야 하는 사람은 누구나 마음을 다잡을 수 있습니다: 소라는 왼쪽과 오른쪽을 혼동하기도 합니다.

 

 

OpenAI는 소라의 출시 시기를 밝히지 않았지만, 먼저 "몇 가지 중요한 안전 조치"를 취하고 싶다고 언급했습니다.

 

여기에는 극단적인 폭력, 성적인 콘텐츠, 혐오 이미지, 유명인의 초상화, 타인의 IP를 금지하는 OpenAI의 기존 안전 기준을 충족하는 것이 포함됩니다.

 

"광범위한 연구와 테스트에도 불구하고 사람들이 우리 기술을 사용하는 모든 유익한 방법과 악용하는 모든 방법을 예측할 수는 없습니다."라고 이 게시물은 덧붙였습니다.

 

"그렇기 때문에 실제 사용을 통한 학습은 시간이 지남에 따라 점점 더 안전한 AI 시스템을 만들고 출시하는 데 있어 중요한 요소라고 생각합니다."

 

 

마무리

 

OpenAI사가 발표한 동영상 생성형 AI Sora에 대해 살펴봤습니다. 아직 일반인들은 사용할 수 없지만, 지금까지 OpenAI사의 행보를 생각하면 빠른 시일 내 문이 열릴 것 같네요. 특이점이 오고 있습니다. 감사합니다.

 

 

댓글