谷歌Gemini、Pika的交集！多模态晋升AI热词算力板块再次“躺赢”？_新闻

谷歌Gemini横空出世，再次让大家的目光聚焦在了多模态大模型上。

Gemini1.0号称具有原生多模态能力，能够处理视频、音频、图像、文本和代码等多种形式的内容，且性能优于现有的“拼接型”多模态大模型。从谷歌官方公布的技术文档中的示例来看，Gemini不仅能够进行双模态之间的转换（如文生图或文生视频），亦能处理需要进行多模态转换的复杂任务。

多模态的意义在于，为AI应用带来了更多可能性，是通用人工智能（AGI）发展的关键。

从这个角度来看，Gemini上线是AI产业发展的里程碑事件，其代表的原生多模态大模型有望拓展大模型的应用场景和边界。国盛证券称，Gemini的问世有望为业界贡献大模型泛化能力的全新范式，加速AIGC向AIAgent的转变。

而谷歌作为科技巨头，拥有丰富的软硬件生态。国海证券表示，如果谷歌将旗下产品全面接入Gemini，其搜索引擎和办公软件将能够与微软的NewBing及Microsoft 365 Copilot对垒；此外，谷歌亦有可能在搭载Android系统的移动设备上推出类似于Windows Copilot的AI助手，充分发挥其在2C端的用户优势，顺应当前AI手机的发展潮流。

▌多个多模态AI应用惊艳亮相

最近已有多个多模态AI应用惊艳亮相，包括爆火出圈的Pika，以及三大图片转视频神器——阿里的Animate Anyone、字节跳动的Magic Animate、微软的GAIA。

对于Pika，大家已经耳熟能详，它是对标Runway Gen-2的AI视频生成平台，对于Animate Anyone和Magic Animate，《科创板日报》此前已做过详细报道。GAIA相关论文发布于11月26日，该AI工具的效果同样出色，能让一张人物肖像/照片“张嘴说话”，还附带音频。

另有多家科技公司在文生视频领域取得新进展：Meta发布工具Emu Video，能够基于文本和图像输入生成视频剪辑；Runway在Gen2中上线Motion Brush动态笔刷功能，只需对着图像任意位置一刷，就能让静止的一切物体动起来；Stable AI推出Stable Video Diffusion，可以从图像中生成高品质的视频剪辑。

开源证券表示，科技巨头之间多模态大模型的竞争日益激烈，同时驱动着底层多模态大模型的能力不断突破，叠加GPTs等AI应用形式的出现，AI应用有望迎来快速增长期。

▌再次呼唤更多算力

多模态大模型的算力需求远高于纯文本模态。以Gemini为例，其强大的多模态能力背后，是庞大的算力需求。虽然没有正式公布，但根据内部消息，Gemini有万亿参数，训练所用的算力甚至达到GPT-4的五倍。

有别于传统大模型对英伟达硬件及生态的依赖，Gemini训练所需的算力基于谷歌自研的TPU v4和v5e等硬件。在推出新模型的同时，谷歌顺势宣布推出迄今为止功能最强大、最高效、可扩展性最强的TPU系统Cloud TPU v5p，将用于开发更高层次的AI大模型。

其TPU v5p的训练性能是上一代TPU v4的2.8倍，内存带宽提升3倍，芯片间互联带宽翻倍，达到4.8Tbps，同时，v5p单个POD中的芯片数量翻倍，达到8960颗。

民生证券认为，谷歌作为自研算力新势力，有望激化算力市场良性竞争，进而降低算力使用成本。在海外互联网巨头AI模型军备竞赛下算力基建产业链将持续受益。国盛证券也表示，谷歌作有望为算力供需双方提供全新选项，从供应侧看，有利于技术的良性竞争，从需求侧看，充分的市场竞争也有利于降低算力的使用成本。

另一方面，因Gemini Nano将登陆谷歌Pixel 8 Pro手机，端侧算力也受到重视。此前高通发布的报告显示，未来AI推理的规模将远高于AI训练，推理成本将随着日活用户数量及其使用频率的增加而增加，而云端推理的成本掌握在云厂商手中，这将导致规模化扩展难以持续，因此布署端侧算力是生成式AI规模化扩展至关重要的一步。

放眼全球AI产业，OpenAI于11月份发布了GPT-4 Turbo且开放了GPTs，谷歌紧随其后发布Gemini，表明人工智能巨头在大模型领域的竞争依然白热化。

平安证券表示，在此背景下继续看好AI算力需求的增长。国信证券也称，ChatGPT外，绘图、视频等多类AI应用陆续取得进展，训练与后续推理需求持续，算力基础设施长期景气度持续。

（文章来源：财联社）

谷歌Gemini、Pika的交集！多模态晋升AI热词 算力板块再次“躺赢”？

相关阅读

最近发表

谷歌Gemini、Pika的交集！多模态晋升AI热词算力板块再次“躺赢”？