谷歌发布全新升级大模型，对决OpenAI

随着OpenAI和谷歌相继推出新一代大模型，生成式人工智能（AI）的竞赛又达到新的高潮。当地时间14日上午，谷歌在I/O开发者大会上推出最新多模态AI产品，包括由升级后Gemini模型驱动的万能AI助手Project Astra和对标Sora的文生视频模型Veo。

在演示视频中，Project Astra能够通过摄像头看到的内容来分析、响应语音指令，同时与人类进行实时语音对话。随着视觉和推理能力的提高，Project Astra还可以成功地识别出代码序列、为电路图提出改进建议等。

Veo则具备生成1080p高清视频的能力，用户可以通过文本、图像、视频等各种格式提供提示。点击“扩展”按钮，Veo生成视频的时长持续增加，最终达到了1分10秒，超过了Sora的时长。目前，Veo已经开始在谷歌官网开放试用，此外，团队还开发了实验性工具VideoFX搭载Veo模型，为用户提供更多的创作工具和可能性。

谷歌首席执行官桑达尔·皮查伊表示，谷歌所有工作都在围绕生成式AI模型Gemini展开。根据此次发布会最后的官方统计，完全聚焦于AI的这场主题演讲总共提到了121次AI。

美国《商业内幕》报道称，大型科技公司之间的激烈竞争更加凸显。就在谷歌I/O大会前一天，OpenAI发布了最新一代AI模型GPT－4o。GPT－4o是OpenAI聊天机器人的最新版本，它能像人类一样对音频提示做出几乎即时的反应，实时翻译语言，甚至能作为导师帮助学生。据彭博社报道，苹果即将与OpenAI达成协议，在iOS 18中加入基于ChatGPT的人工智能功能。这项技术可能会被整合到定于今年9月发布的iPhone 16上。

谷歌也不甘示弱。在发布会上，谷歌表示，从今年晚些时候谷歌将发布的Pixel手机开始，谷歌将把其最新的Gemini人工智能模型整合到安卓设备中。

“在文本大模型上，谷歌和OpenAI最领先的技术咬得很紧。从使用体验来看，目前谷歌的Gemini大模型比GPT－4o处理能力弱一些。”清华大学新闻学院新媒体研究中心主任、跨学科知名学者沈阳教授15日对《环球时报》记者表示，经过去年一年的酝酿，ChatGPT已经获得了亿级的用户量。今年，几大科技巨头主要是在扩大产业规模上发力，希望把平台用户量推向10亿以上。因此，GPT－4o主要设计目标是解决迁移到苹果Siri平台的工程问题，为Siri全面适配做重要的工程性优化，包括提升反应速度、减少出错率等。而谷歌的优势在于用户基数大，且能够直接触达用户。目前来看，大模型之争“鹿死谁手”，还需要进一步观察。

编辑：金艳

责任编辑：彭彦彰

编审：舒旭晖

分享

相关新闻