首页 > 科技 > 正文

ChatGPT能铁道部长 说能听能看了!但是朋友圈已经不关心了


更新日期:2023-09-26 16:43:11来源:网络点击:1992848
今天晚上,OpenAI的CEO Sam Altman突然放出了大家期待已久的大招:

ChatGPT将在未来几周内开放语音和视觉功能,也就是官方形容的,ChatGPT现在能看,能听,能说了。

并且放出了一个非常直观的视频,展示ChatGPT的视觉能力

AI相关的自媒体迅速行动起来抢热点,这是难得的爆炸新闻,还有官方的视频素材,(可惜TechVerse今天推送过文章,所以只能在今天凌晨发出这篇文章)。

但是,在无法第一时间抢热点的焦虑中度过一段时间后,我发现,除了自媒体们,大家并没有想象的激动,我也没有在朋友圈看到刷屏的自行车。没有了转发的“魔法”,“革命”,”太强了“, AI也开始经历Web3的旅程,变得没人关心了。

这其中的原因,被大家讨论过很多遍了,过高的预期和今天AI的能力限制的矛盾,让越来越多的人不再那么兴奋,可是今天这样的大招都没能掀起刷屏,也着实让人惊讶,AI凉的速度之快。但是,科技的浪潮就是在这样的泡沫和低谷中交替前进的,今天发布的新功能,可能正是解锁LLM场景的一把钥匙:

概括一下ChatGPT发布的功能:

OpenAI正在ChatGPT中推出新的语音和图像功能。这些新功能提供了更直观的交互方式,允许用户与ChatGPT进行语音对话或向其展示正在讨论的内容。

主要值得关注的点包括:

用户现在可以与ChatGPT进行语音交谈,它可以回复你。这个新功能由文本转语音模型提供支持,可以从文本和少量语音样本生成逼真的语音。

用户现在可以在ChatGPT中展示一张或多张图像,以获取相关帮助和见解。在移动应用上,可以使用绘图工具聚焦图像的特定部分。这些视觉能力由多模态GPT-3.5和GPT-4提供支持。

OpenAI正逐步推出这些新功能,以进行改进和风险缓解,并准备用户使用更强大的系统。考虑到语音和视觉能力带来的新风险,这种渐进策略尤为重要。

其中,官方给出了一些可能的应用场景:

当旅行时,拍下一处地标的图片,并就其有趣之处进行语音交谈。

在家时,拍下冰箱和食品柜的图片,弄清做什么晚餐(并提出后续问题获取步骤式食谱)。

晚餐后,通过拍照、圈画题目,并与孩子共享提示,帮助孩子解决数学问题。

也包括视频中的案例,指导用户选择正确的工具调节自行车座椅的高度。

这些场景,实际上就是一个原生的AR AI助手需要的功能!如果用户佩戴一副有摄像头的智能眼镜,今天,LLM第一次可以就像一个万能的助理,通过自己的眼睛和用户分享同样的信息,并且直接提供帮助。而语音的交互,可能更好的在这种场景实现输入和输出。

随着今年下半年Meta Quest3的发货和明年Vision Pro的发布,这也许会让LLM在XR设备中发挥更大的作用。让人类向虚拟世界更进一步了!

AI,凉一点,才有点靠谱的味道。


相关:

福建:“夏季行动”以来破获刑事案件2.3万余起  中新网福州9月25日电 (郑江洛)记者25日从福建省政府新闻办举办的新闻发布会上获悉,自今年6月25日公安部部署全国公安机关开展夏季治安打击整治行动以来,福建警方重拳打击黑恶痞、黄赌毒、枪爆刀、盗抢骗、食..

预制菜进校园,涉嫌违法?今年秋季开学以来,“预制菜进校园”引发公众特别是家长们关注,并引发诸多质疑。近日,有多位律师从合法性角度对此事提出质疑。北京京师(合肥)律师事务所主任朱政认为,对预制菜进校园应该持审慎态度。他说,根..

上一篇: 英媒:与印度针锋相对的时候,他看上去在孤军奋战
下一篇: 对标iPhone 15 Pro!小米14 Pro搭载2K国产微曲屏,用上钛合金