NExT-GPT可以读取并生成音频和视频提示将生成式AI提升到新的水平

综合 2024-02-01 17:04:15

导读 2023年感觉像是人工智能及其不断扩展的能力的一年，但纯文本输出的时代已经失去了动力。AI场景可能由ChatGPT和GoogleBard等巨头主导，但一

2023年感觉像是人工智能及其不断扩展的能力的一年，但纯文本输出的时代已经失去了动力。AI场景可能由ChatGPT和GoogleBard等巨头主导，但一种新的大型语言模型(LLM)NExT-GPT即将颠覆现状-提供全面的文本、图像、音频和视频输出。

NExT-GPT是新加坡国立大学和清华大学研究人员的创意。NExT-GPT被定位为“任意对任意”系统，可以接受不同格式的输入，并根据所需的视频、音频、图像和文本响应输出提供响应。这意味着您可以输入文本提示，NExT-GPT可以将该提示处理为视频，或者您可以为其提供图像并将其转换为音频输出。

ChatGPT刚刚宣布了“看、听和说”的功能，这与NExT-GPT提供的功能类似-但ChatGPT正在寻求此类功能的更适合移动设备的版本，并且尚未引入视频功能。

在过去的一年里，我们看到了很多ChatGPT替代品和竞争对手的出现，但NExT-GPT是迄今为止我们所见过的少数几个可以与ChatGPT基于文本的输出相匹配的LLM之一，而且还提供了超出预期的输出。OpenAI流行的聊天机器人目前可以做到。您可以前往GitHub页面或演示页面亲自尝试一下。

那么，它是什么样的呢?

我在演示网站上摆弄过NExT-GPT，不得不说我印象深刻，但并没有被震撼。当然，这并不是一款经过公众反馈、多次更新等优点的打磨产品——但它仍然非常好。

我要求它将我的猫Miso的照片变成他作为图书管理员的图像，我对结果非常满意。它的质量可能与Midjourney或StableDiffusion等成熟图像生成器的质量水平不同，但不可否认，它仍然是一张非常可爱的图片。

我还测试了视频和音频功能，但效果不如图像生成。生成的视频也并不糟糕，但确实具有非常明显的“人工智能制作”外观，伴随着大量生成的图像和视频，所有内容看起来都有点扭曲和不稳定。这太不可思议了。

总体而言，该法学硕士有很大潜力填补OpenAI和Google等大型人工智能公司内部的音频和视频空白。我确实希望随着NExT-GPT变得越来越好，我们将能够看到更高质量的输出，并立即无缝地用我们的猫制作一些优秀的家庭电影。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：