大家好!今天我要给大家介绍一款真正突破视频生成极限的开源AI大模型——Wan 2.1。这款模型不仅完全免费,还能在普通电脑上离线运行,生成高质量的视频内容。无论你是想用文字生成视频,还是将图片转化为动态画面,Wan 2.1都能轻松搞定。更令人震撼的是,它在微半级榜单(VBench)上稳居第一,性能表现堪称无敌!
Wan 2.1:微半级榜单霸主,性能碾压一众模型
Wan 2.1 是目前开源视频生成领域的佼佼者,其综合实力在VBench榜单上得到了充分验证。截至目前,它的综合评分高达86.2,其中视频质量得分86.67,语义理解能力更是达到了84.44,远超其他开源和部分闭源模型。比如,开源领域的热门模型“混元”和“Gen-3”分别排在第12和第13位,分数远不及Wan 2.1,甚至一些闭源模型也难以望其项背。
VBench 是托管在Hugging Face上的权威评测基准,涵盖视频清晰度、连贯性、语义一致性等多个维度,非常具有参考价值。而 Wan 2.1 能在这样的榜单中独占鳌头,足以证明它的性能。更重要的是,它不仅免费开源,还能生成媲美目前大多数开源模型的视频质量。
消费级硬件也能跑,普通用户的好消息
Wan 2.1 的另一个亮点是它的硬件要求非常亲民。不需要昂贵的专业设备,普通电脑就能本地运行。它支持消费级GPU,比如1.3B参数版本的模型只需8.19GB显存就能流畅工作。如果你的显卡是RTX 4090,甚至无需任何优化就能在4分钟内生成一段5秒的480P视频。这意味着,即使是普通用户也能轻松上手,体验AI视频生成的乐趣。
不仅如此,Wan 2.1 的功能也非常强大。除了基本的文本转视频,它还支持图像转视频、视频编辑、文本转图像,甚至能实现视频转音频,为创作者提供了无限可能。背后的秘诀在于它配备了强大的视频变分自编码器(Video-VAE),能够高效编码和解码超长1080P视频,同时完美保留时间信息,让生成的视频更加流畅自然。
本地安装教程:几步搞定Wan 2.1
想马上体验Wan 2.1的强大功能?别急,我来手把手教你如何在本地安装和使用它。以下是详细步骤,所需资源链接我会放在文章末尾。
第一步:安装ComfyUI一键包
首先,我们需要一个运行环境,这里推荐使用ComfyUI。它支持Windows和Mac系统,安装非常简单:
1.ComfyUI下载,地址为:https://www.comfy.org/
2.根据你的系统选择Windows或Mac版本,点击下载。
3.下载完成后,解压并双击运行安装程序。
4.安装时选择GPU类型(建议NVIDIA显卡,主流AI项目基本不支持AMD卡)。如果没有GPU,也可以选CPU模式。
5.选择安装路径(默认C盘即可,或自定义到其他盘),然后点击“安装”。
6.安装过程会自动部署Python环境和相关依赖,大概几分钟完成。
7.安装完成后,启动ComfyUI。如果提示缺少模型文件,按照提示下载即可。
第二步:下载文本编码器和视频编码器
文本编码器:
打开下载链接下载:
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encoders
有两个版本:FP16(11.4GB)和FP8(6.7GB)。
显存小于8GB选FP8,高于12GB选FP16(精度更高),我推荐FP8,兼容性更好。
下载后,放入ComfyUI安装目录的/models/t2v文件夹,我是默认安装C盘的(路径:C:\Users\momeo\Documents\ComfyUI/models/t2v)。
视频编码器(Video-VAE):
打开链接下载:
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/vae/wan_2.1_vae.safetensors
下载后放入ComfyUI/models/vae文件夹。
第三步:下载视频生成模型
打开下载链接下载:
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/diffusion_models
有多个量化版本可选。
官方建议用FP16版本(32GB),效果最佳。质量等级(从高到低):fp16 > bf16 > fp8_scaled > fp8_e4m3fn。
但如果显存不够,可以选1.3B FP16(2.84GB),适合大多数独立显卡。
下载后放入ComfyUI/models/diffusion_models文件夹。
第四步:加载工作流并测试
下载工作流文件:打开链接右键另存桌面。
https://comfyanonymous.github.io/ComfyUI_examples/wan/text_to_video_wan.json
重启ComfyUI,将工作流文件拖入界面。
默认已有提示词,直接点击“执行”测试。生成结果会保存为.mp4文件。
修改提示词,我试了中文提示词,比如“一位年轻漂亮的女士在湖边看手机”,再点击执行。
Bonus:图像转视频
打开下载Diffusion Models链接下载:
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/diffusion_models/wan2.1_i2v_480p_14B_fp16.safetensors
Diffusion Models放ComfyUI/models/diffusion_models/文件夹。
打开下载CLIP Vision链接下载:
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/clip_vision/clip_vision_h.safetensors
CLIP Vision放ComfyUI/models/clip_vision/文件夹。
下载工作流文件:打开链接右键另存桌面。
https://comfyanonymous.github.io/ComfyUI_examples/wan/image_to_video_wan_example.json
重启ComfyUI,将工作流文件拖入界面。
这里提示了个错误,是因为默认的模型与我们实际运行的模型不一致导致的。
点击右箭头就可以自动找到我们本地用的模型。
上传一张图片,输入提示词(如“戴上墨镜微笑”),点击执行。
测试了一下,效果惊艳,五官无变形,动作自然。
之前我用过不少视频生成模型,要么配置麻烦,要么生成时间长得让人抓狂。但Wan 2.1完全不同,即使我的硬件不算顶级,生成速度也比以前快很多,效果还特别出色。无论是文生视频还是图生视频,它都能轻松胜任,细节真实到让人挑不出毛病。
如果你也想体验这款神器,所有下载链接和资源我都整理在下方。赶快动手试试吧,相信你会被它的表现惊艳到!
暂无评论内容