首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

能看,能听,还能说?这还是AI吗?

在各个大模型都在卷内容生成的时候,ChatGPT又开始放大招了。GPT-4 Vision,即将发布,这是一个能看,能听,还能说的AI。

怎么看?试试直接给它发一张图片提问,让它教你怎么样做。比方说发一张自行车的图片,座椅太高了。需要调节:

如果不知道应该调节哪里,ChatGPT还会告诉你具体的调节位置:

调节座椅不知道用哪个工具怎么办?把工具箱拍张照片发给ChatGPT,它会告诉你用哪个。

好了,这下座椅调节好了。真的是很智能。

如果晚上不知道吃什么好,简单。打开你的冰箱,拍张照片给ChatGPT,它就会告诉你晚上可以做什么晚餐。

这样的应用场景真的非常多,手机摄像头就变成了AI的眼睛。

怎么听?怎么说?那就更加简单了。GPT-4 Vision内置了语音识别和语音生成的能力。只要对着它说话,就可以让AI帮助你完成工作了。

更加炸裂的是:GPT-4 Vision的能力,其实早在2022年的3月份就已经训练出来了。这是过了一年半,才正式发布。为何拖了这么久才出来呢?

一方面是因为:这个能力过于强大,害怕被用户滥用。因此花了很多的时间来确保安全性和可靠性。另一方面我猜测:提供这样的图像和语音能力,对算力的要求是远远超过文字的。只有储备了足够的算力,OpenAI才敢上线啊。

根据OpenAI的研发人员Karpathy的透露,训练图像内容,其实和训练文字内容是一样的,把图片直接序列化当成文字的token一起做大模型的预训练就完事了。颇有一种大巧若拙的感觉。

GPT-4的Plus用户即将在手机App中体验这个能看能听还能说的AI。我觉得AI距离To C市场的引爆大大得拉近了。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/ODIZBrxhcO2rRsw5cSzK_K3Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com