multimodal input

Tech

Alibaba Open-Sources Wan2.1-VACE: The Modular Video Generation Model Redefining Creative AI

Alibaba open-sourced its modular Wan2.1-VACE video generation model (1.3B/14B parameters), featuring multimodal input support (text, images, video clips) and Lego-like customizable modules. The lightweight 1.3B version runs on consumer GPUs, democratizing AI video creation. Released on GitHub/Hugging Face, it has gained 330K+ downloads and 11K+ stars, becoming a leading open-source video generation framework.

2025年5月16日