NExT-GPT可以读取并生成音频和视频提示将生成式AI提升到新的水平
2023年感觉像是人工智能及其不断扩展的能力的一年,但纯文本输出的时代已经失去了动力。AI场景可能由ChatGPT和GoogleBard等巨头主导,但一种新的大型语言模型(LLM)NExT-GPT即将颠覆现状-提供全面的文本、图像、音频和视频输出。
NExT-GPT是新加坡国立大学和清华大学研究人员的创意。NExT-GPT被定位为“任意对任意”系统,可以接受不同格式的输入,并根据所需的视频、音频、图像和文本响应输出提供响应。这意味着您可以输入文本提示,NExT-GPT可以将该提示处理为视频,或者您可以为其提供图像并将其转换为音频输出。
ChatGPT刚刚宣布了“看、听和说”的功能,这与NExT-GPT提供的功能类似-但ChatGPT正在寻求此类功能的更适合移动设备的版本,并且尚未引入视频功能。
在过去的一年里,我们看到了很多ChatGPT替代品和竞争对手的出现,但NExT-GPT是迄今为止我们所见过的少数几个可以与ChatGPT基于文本的输出相匹配的LLM之一,而且还提供了超出预期的输出。OpenAI流行的聊天机器人目前可以做到。您可以前往GitHub页面或演示页面亲自尝试一下。
那么,它是什么样的呢?
我在演示网站上摆弄过NExT-GPT,不得不说我印象深刻,但并没有被震撼。当然,这并不是一款经过公众反馈、多次更新等优点的打磨产品——但它仍然非常好。
我要求它将我的猫Miso的照片变成他作为图书管理员的图像,我对结果非常满意。它的质量可能与Midjourney或StableDiffusion等成熟图像生成器的质量水平不同,但不可否认,它仍然是一张非常可爱的图片。
我还测试了视频和音频功能,但效果不如图像生成。生成的视频也并不糟糕,但确实具有非常明显的“人工智能制作”外观,伴随着大量生成的图像和视频,所有内容看起来都有点扭曲和不稳定。这太不可思议了。
总体而言,该法学硕士有很大潜力填补OpenAI和Google等大型人工智能公司内部的音频和视频空白。我确实希望随着NExT-GPT变得越来越好,我们将能够看到更高质量的输出,并立即无缝地用我们的猫制作一些优秀的家庭电影。