중국 콰이쇼우 테크놀로지, 오픈 소스 기반 AI 비디오 생성 모델 '피라미드 플로우' 출시
- 사이트
https://pyramid-flow.github.io
AI 비디오 생성 모델의 수가 계속해서 증가하는 가운데, 이번 주 '피라미드 플로우(Pyramid Flow)'라는 새로운 모델이 출시되었다. 피라미드 플로우는 최대 10초 길이의 고화질 비디오 클립을 빠르게 생성할 수 있으며, 오픈 소스로 제공된다.
피라미드 플로우는 베이징대학교, 베이징우정대, 그리고 콰이쇼우 테크놀로지의 연구자들이 협력하여 개발한 모델이다. 콰이쇼우 테크놀로지는 평가가 좋은 독점 AI 비디오 생성기인 '클링'을 만든 곳으로도 잘 알려져 있다. 피라미드 플로우는 단일 AI 모델이 여러 단계를 거쳐 비디오를 생성하는 방식을 채택했으며, 대부분의 단계는 저해상도로 처리하고 마지막 단계에서만 고해상도로 생성해 효율성을 극대화하고 있다.
이 모델은 허깅 페이스와 깃허브에서 원시 코드로 다운로드할 수 있으며, 사용자가 직접 코드를 다운로드해 자신의 컴퓨터에서 실행해야 한다. 추론 단계에서는 5초 길이의 384p 비디오를 단 56초 만에 생성할 수 있는데, 이는 많은 기존의 AI 비디오 생성 모델들과 비교해 동등하거나 더 빠른 수준이다. 런웨이의 Gen 3-Alpha Turbo가 여전히 가장 빠른 생성 속도를 자랑하며, 테스트에서는 10~20초 만에 비디오를 생성하기도 한다.
피라미드 플로우는 현재 상업적/기업용으로도 사용할 수 있는 오픈 소스로 제공되며, 유료 독점 모델들과 직접 경쟁하기 위해 설계되었다. 이는 특히 비디오 생성 기능을 필요로 하는 개발자와 창작자들에게 높은 효율성과 유연성을 제공하며, 런웨이, 루마, 클링 등의 유료 모델들과의 경쟁을 목표로 하고 있다.
피라미드 플로우는 "피라미드 플로우 매칭을 통한 효율적인 비디오 생성 모델링"이라는 논문에 자세히 설명되어 있으며, 해당 논문은 2024년 10월 8일 과학 오픈 액세스 저널인 arXiv에 제출되었다. 연구자들은 피라미드 구조를 통해 비디오 생성 과정의 계산 비용을 대폭 줄였으며, 이를 통해 학습 배치당 더 많은 샘플을 생성할 수 있었다고 설명하고 있다.
이 모델은 768p 해상도와 24프레임으로 5~10초 길이의 비디오를 생성할 수 있으며, LAION-5B, CC-12M, SA-1B, WebVid-10M, OpenVid-1M 등의 공개 데이터셋을 이용해 학습되었다. 그러나 일부 공개 데이터셋이 저작권 문제와 관련해 논란이 있다는 점도 주목할 필요가 있다. 특히 LAION-5B는 아동 성착취 자료를 포함했다는 비판을 받고 있으며, 일부 AI 비디오 생성 모델이 저작권 침해로 소송에 휘말린 사례도 존재한다.
피라미드 플로우는 MIT 라이선스 하에 제공되며, 개발자와 기업들이 독점 시스템에 통합할 수 있는 매력적인 옵션으로 자리 잡을 가능성이 크다. 다만, 피라미드 플로우는 런웨이 같은 기존 독점 모델들에 비해 세부 조정 기능이 부족하며, 사용자가 직접 추론을 위한 인프라를 구축해야 하는 부담이 있다.
AI 비디오 생성 시장이 빠르게 발전하고 있는 가운데, 피라미드 플로우의 출시는 보다 접근성 높은 오픈 소스 솔루션으로의 전환을 의미한다. 이는 비용과 폐쇄된 모델의 한계를 피하고자 하는 사용자들에게 매력적인 대안이 될 것으로 기대된다. 피라미드 플로우의 향후 성장이 비디오 콘텐츠 제작자들 사이에서 주목받을 것으로 보인다.
Welaunch 김선호 기자
스타트업 뉴스 플랫폼, 위런치
© 2024 Welaunch. All Rights Reserved