全球AI大混战升温！超越Sora的阿里万相大模型开源家用显卡都能跑_新闻

北京时间周二深夜，阿里巴巴正式开源旗下视频生成模型万相2.1模型。顶级前沿模型的开源浪潮，终于涌向由AI驱动的视频创作领域。

这也是本周AI产业“诸神混战”的最新一章。周一美国Anthropic公司意外发布首个混合推理模型Claude 3.7 Sonnet。与此同时，DeepSeek也在持续开源5个代码库，赶忙上架“最强大模型”的xAI将推出一系列应用层面的优化。美国科技巨头亚马逊也已经定档周三，将给语音助手Alexa带来“AI升级”。坊间也有传言称，OpenAI可能会在本周推出GPT-4.5。

根据通义介绍，此次开源的是两个版本的模型：14B版本适用于专业创作者迅速上手部署，而1.3B参数量的版本在家用显卡（注：官方给的例子是英伟达4090）上用单卡8.2G显存就能生成480P高质量视频。性能甚至能与某些5B参数量的闭源大模型相媲美。

受此消息影响，阿里巴巴美股盘中异动拉升，带动中概股集体走强。

根据视频生成模型的“大模型排行榜”，万相2.1在VBench基准测试中位居全球第一，力压美图奇想、OpenAI Sora、Adobe/麻省理工的CausVid、苹果 STIV等一众国内外竞品。

（来源：huggingface）

而行业领跑者的主动开源，而且是全部推理代码和权重全部开源，意味着视频生成模型赛道将会更加生机勃勃，竞争和迭代也会变得更加激烈——对于消费者以及内容产业的从业者而言，生产力跃升的速度也会变得更快、成本和使用门槛将快速降低。

作为全球领先的视频生成模型，万相2.1的技术突破主要体现在两点，首先是能够展现复杂稳定的人物肢体动作，以及精准还原碰撞、反弹等复杂物理场景。这决定了AI生成的视频是否具有足够的真实性。

而且大模型也能驾驭各种风格和题材。

另一个巨大的优势，是万相2.1能够直接通过提示词，在视频中生成中文字（英文字也可以），以及特殊艺术效果。可以想见，随着这个模型的开源，中文AI应用市场又将迎来一波新玩法的升级。

在AI视频中准确生成文字，不论是中文还是英文，是绝大多数竞品目前未能达到的高度。

（来源：OpenAI Sora）

随着万相2.1完全开源，OpenAI、谷歌等竞品也将直面商业化的挑战：更好的模型已经开源了，AI生成视频的定价也将面临挑战。

拖了一整年后，OpenAI去年底终于发布Sora产品，面向每月缴纳20/200美元的订阅用户。同时由于算力不足，暂时没有推出API的计划。谷歌Veo 2模型则在近期披露定价，每生成1秒视频需要付费0.5美元，相当于生成一个小时的视频需要花费1800美元。

（文章来源：财联社）

全球AI大混战升温！超越Sora的阿里万相大模型开源 家用显卡都能跑

相关阅读

最近发表

全球AI大混战升温！超越Sora的阿里万相大模型开源家用显卡都能跑