Alibaba 그룹의 Tongyi Lab에서 개발한 Wan 2.1은 텍스트나 이미지 입력을 기반으로 고품질 비디오를 생성하는 최첨단 인공지능(AI) 모델입니다. 이 모델은 다양한 작업에서 기존의 오픈 소스 모델과 상용 솔루션을 능가하는 성능을 보이며, 특히 텍스트-비디오, 이미지-비디오, 비디오 편집, 텍스트-이미지, 비디오-오디오 등 여러 분야에서 우수한 결과를 제공합니다.

주요 특징:

\n\n

소비자용 GPU 지원: Wan 2.1은 8.19GB의 VRAM만으로도 작동 가능하여, RTX 4090과 같은 소비자용 GPU에서도 5초 길이의 480P 비디오를 약 4분 만에 생성할 수 있습니다.

\n\n\n

복잡한 동작 생성: 현실감 있는 신체 움직임, 복잡한 회전, 동적인 장면 전환 및 유연한 카메라 움직임을 포함한 비디오를 생성할 수 있습니다.

\n\n\n

물리적 시뮬레이션: 실제 세계의 물리 법칙과 객체 간 상호작용을 정확하게 시뮬레이션하는 비디오를 생성합니다.

\n\n\n

시네마틱 품질: 풍부한 텍스처와 다양한 스타일 효과를 통해 영화와 같은 비주얼을 제공합니다.

\n\n\n

편집 가능성: 이미지나 비디오 레퍼런스를 활용하여 정밀한 편집이 가능한 범용 편집 모델을 갖추고 있습니다.

\n\n\n

텍스트 시각화: 비디오 내에서 중국어와 영어 텍스트를 생성하고 동적인 텍스트 효과를 구현할 수 있습니다.

\n\n

한국 사용자 이용 가능성:

Wan 2.1은 오픈 소스로 공개되어 있어, 한국을 포함한 전 세계 개발자와 연구자들이 자유롭게 활용할 수 있습니다. 또한, 소비자용 GPU에서도 작동 가능하므로, 고가의 전문 장비 없이도 개인 사용자나 중소기업이 쉽게 접근하여 활용할 수 있습니다. 

최근 Alibaba는 Wan 2.1의 오픈 소스 버전을 공개하였으며, 이는 중국 AI 시장에서의 경쟁이 심화되는 가운데 이루어진 결정입니다. 이 모델은 VBench라는 비디오 생성 모델 리더보드에서 주요 지표에서 선두를 달리고 있습니다. ​

\n\n\n\n\n\n\n

Wan 2.1은 AI 비디오 생성 분야에서 새로운 기준을 제시하며, 다양한 분야에서의 활용이 기대됩니다.