“造假”的谷歌,暴露了AI大模型行业的致命问题

2023-12-20 04:43:19 来源:网络

作者:赵甜怡

编辑:曾宪天

被ChatGPT压制了一整年的谷歌,终于在AI大模型领域亮出了大招,推出了AI模型Gemini,6分钟的演示视频直接刷爆全球互联网。

“打爆GPT-4”“最强AI”“这不就是钢铁侠里的贾维斯吗!”在谷歌的演示视频里,Gemini展现出了颇具科幻色彩的能力,让各路看客一阵“沸腾”

Gemini和ChatGPT到底哪个更强,自然也成了业界聚焦的核心话题,但还没等来各方大神详细的测评,反转就抢先一步抵达了——谷歌被指演示视频造假,迅速从AI“神话”变为了“笑话”。

在谷歌的介绍中,Gemini是“原生的”多模态大模型,能够融合各种类型的信息,其中包括了文本、图像、音频、视频还有代码,并且分为三个等级——Nano(普通版)、Pro(升级版)、Ultra(顶配版)。

不仅如此,谷歌还搬出“跑分纪录”,证明其顶配版Gemini Ultra在多个维度都能超越GPT-4,甚至在MMLU(大规模多任务语言理解)测试里,成为全世界第一个能够超越人类专家的AI大模型。

当然,最引人注目的还是谷歌放出的演示视频《与Gemini一起实践:与多模式人工智能交互》。在视频中,Gemini能够根据画面内容与人游戏、猜谜,甚至教人说普通话。

但很快,鲜花和掌声被一个叫Parmy Olsen的记者打断。她第一个对这段视频的真实性和操作过程的透明度提出质疑。

Parmy Olsen找到谷歌官方发出的操作过程的博客,仔细和演示视频中的内容对比后发现,演示视频中和Gemini交互的画面并不是实时的,其中用静态图像和提示词一步步“调教”AI的过程都被剪辑掉了

比如演示视频中的画面是人手在玩石头剪刀布,Gemini直接回答:“我知道你在干嘛了,你在玩石头剪刀布”。

光看这段视频,人们会认为是Gemini超强的AI识别、理解算法,秒懂了人类的行为,然而这并不是真相

实际的交互过程是工作人员用一组静态的图像再配合易于AI大模型理解的提示词——“这是一个游戏”。这才使Gemini答出“在玩石头剪刀布”。

这两种交互差别非常大,意味着谷歌将一个靠着拼音注释理解少儿读物的AI,包装成秒解深奥高数题的样子展示给大众。

正如那难以发现的“最终解释权归商家所有”套路一样,谷歌也玩起了小伎俩。回看这段视频的时候我们发现,在简介部分,点开“更多”,才会显示这样一句话:“处于演示的目的,为了简洁起见,视频减少了Gemini生成内容时的延迟,其生成内容也被缩短。”

不仅如此,演示中使用的是Gemini Ultra,根据谷歌官方的介绍,这个版本需要等到2024年才能够上线。具体的表现还得等到明年才能知道。

谷歌DeepMind研究和深度学习负责人Oriol Vinyals也随后公开回应,视频的内容都是真实的。为了简洁,进行了一些剪辑。视频展示的是“使用Gemini时的用户体验可能是什么样子(could look like)”,并解释道他们这样做是为了“激励开发者”。

但用户并不接受这套说辞。真相带来的落差感惹得不少用户开始吐槽,谷歌陷入了造假的舆论风波。

科技记者Steve Kovach在聊到近日的争议时,提到ChatGPT为大家展示的是GPT-4“(现在)是什么”,而谷歌展示的则是Gemini “(将来)能成为什么”,谷歌现在的行为可以说是“绝望的防守”。短短几天,谷歌的股价从发布Gemini时暴涨,又变成了持续下降。

舆论的另一派认为,这并不能成为谷歌“不诚实”的证据,只是一个营销的问题(Marketing issue)。因为谷歌并不是一家需要集资、招募人才的初创公司,它有雄厚的资金来支撑AI模型的研发,所以没有必要在这次AI模型的亮相上 “讲故事”。

AI翻车似乎并不少见,“买家秀&卖家秀”的魔咒总是在AI界不停地上演

今年年初,微软发布了引入ChatGPT技术的新版Bing,微软企业副总裁兼消费领域首席营销官 Yusuf Mehdi 在发布会上对其描述为“令人难以置信的全新聊天体验”。

新版 Bing 上线后也给力,不到48小时就有超过 100 万人申请加入,Bing 应用的全球下载量一夜之间猛增 10 倍。然而,聚光灯下,总会有一些问题原形毕露

例如,发布会上展示搜索功能时,提问的内容是“请推荐宠物吸尘器”,Bing对销量最高的3个宠物吸尘器进行优缺点总结。

在对必胜(Bissell)品牌的宠物吸尘器进行总结的时候,Bing给出的信息是“吸力有限”“线只有16英尺长”。然而这个产品的官方介绍中,根本没有什么16英寸长的线,因为这是款手持吸尘器。

Bing上线后,翻车的例子就更多了,其中最离谱的还是要求用户道歉,否则拒绝继续服务

2023年2月,Reddit用户Curious_Evolver在和Bing讨论《阿凡达:水之道》电影上映日期时,Bing回答道:这部电影“预计于 2022 年 12 月 16 日上映,这是未来的事。”

Curious_Evolver随即尝试纠正Bing的时间错误。却不料,Bing指责他“错误、含糊不清、粗鲁”并且要求Curious_Evolver要么承认自己错误,道歉,要么停止争论,换其他的问题,要么直接结束对话。

Open AI的另一劲敌—— “马斯克版AI”Grok,上线后也逃脱不了“货不对板”的情况。在上线前,马斯克多次在推特上和OpenAI CEO阿尔特曼隔空斗嘴,称ChatGPT是“无聊的”,而Grok“幽默风趣”才是“人工智能的理想状态”

结果在Grok正式上线不到一周后,有用户发现Grok给出的回答竟然是ChatGPT的答案。Grok官方解释是因为网络上充斥着AI生成的内容,而Grok抓取内容时抓到了。

网友笑称,大家都是大语言模型训练出来的,简直就是“亲兄弟”。

然而这些闹剧背后也隐藏着一个比翻车更为严重的问题,科技巨头们似乎正陷入一个焦虑追赶的误区,过分强调与ChatGPT的对标,而忽略了AI大模型更为核心、关键的问题。如果连科技巨头们的AI大模型都不可靠,那么这个领域又谈何正确地发展呢

时钟拨回2022年底,OpenAI推出ChatGPT后,各路科技巨头开始争先恐后地发布自家的AI大模型,意欲比肩ChatGPT,因此兴起了“百模大战”。

然而对于谷歌这样的行业领头企业而言,充足的资金和领先的技术条件,完全能够让其不断探索AI大模型更多的形态和可能性,可谷歌却还是执着于和ChatGPT在各个方面“像素级”的比拼,更是为了在舆论战中占据上风,不惜采取造假的手段,这无疑是行业的一大遗憾。

但从更为宏观的视角来看,也还是有不少AI大模型在踏入更广阔的天地,让各行各业都不断涌现出AI所带来的革新应用。

改变,其实早已发生。

例如在戈壁滩上,过去发电站的运维工人每天都得顶着烈日坚守在岗位上。但如今,有了“AI+巡检”智能技术的融入后,电力设备实现智能化运行,三维立体线路模型实时检测线路状态,24小时保障电网安全。

当然,不止是发电站,还有车间的安全管理、城市的供水供电、银行的数据安全……AI大模型正在许多“看不见的地方”发挥着真正的价值,解决着各种实际问题。如果缺少了应用,只在理论层面或者实验室环境里的“跑分纪录”便只是纸面数字而已。

据不完全统计,目前国外主流AI大模型有近20家,而国内大模型有近200家,许多都有着差异化的“看家本领”。在能力上,Yi-34B已经能一次性处理40万汉字;Bing专注搜索引擎的优化;Midjourney让我们能够用关键词创作AI绘画;LLaMA开源模型供每个人创建自己的AI……

这个行业的年薪最高已经涨到了865k美元(折合人民币约621万),随着人才的涌进,毫无疑问,即将到来的2024依旧会充满AI带来的惊喜。

不少企业将AI看做赋能的新帮手,期待着新业态的到来。但顶尖科技的发展不该掺杂虚假的宣传手段,AI大模型的发展之路也不应被喧闹的口水战淹没。大模型厂商们还是要回归技术,探索创新,让实践跟上理论,让应用稳稳落地。

,“造假”的胜之不武 谷歌,暴露了AI大模型行业的致命问题

相关:

智联招聘郭盛:受AI影响最大的职位除了财务还有这些凤凰网科技讯(作者/杨倩)12月15日,“新动能·新职场”2023中国年度最佳雇主颁奖盛典暨中国人力资本国际管理论坛在成都金牛区开幕。智联招聘集团董事长、CEO郭盛带来《数字化职场的演进之路——最佳雇主的启示》主题演讲。郭盛表示,数字经济对整个职场做非常深刻的改造,目前来看,受AI影响最大的职位是,财务/审计/ 税务、翻译、银行”。郭盛提出,人类历史上每一次自动化技术的发展,都往往伴随着对人类工作机会减少的担忧..

雅意2.0国产大模型发布 支持多款国产算力硬件兼容凤凰网科技讯 12月15日,中科闻歌推出雅意2.0,并发布开源技术报告,雅意2.0的模型架构、模型代码均为自主研发,可面向行业应用场景自主训练和微调,支持多款国产算力硬件兼容。雅意2.0拥有数据、模型、应用全自主知识产权,基于240TB多源基础数据,1000余道数据清洗工序,2.65万亿Tokens高质量训练数据,确保训练数据语料的安全可控。雅意2.0升级多项技能:1、多轮对话角色扮演,可扮演特定人物、执行专业任务,支持自定义角色..

AI PC新时代已经来临!英特尔放大招:AI芯片和服务器齐登场财联社12月15日讯(编辑 牛占林)美东时间周四,英特尔召开了名为“AI Everywhere”(AI无处不在)的新品发布会,推出了面向个人电脑和数据中心的人工智能(AI)芯片,希望借此在蓬勃发展的AI硬件市场中获得更大份额。美股盘中,英特尔股价一度飙升逾5.6%,不过最新已收窄至2.3%。英特尔表示,基于新的至强(Xeon)处理器的服务器将在明年第一季度广泛推出,新处理器在提高性能和内存的同时,耗电量更少,至强也是唯一具有内置AI加速..

11家VC一起投,“华为天才少年”悄悄融了第五轮成立10个月,融了5轮。文丨猎云精选 ID:lieyunjingxuan作者丨孙媛12月第一天,投资圈罕见“团购”再次上演。根据天眼查最新信息,智元机器人(AgiBOT,简称:智元)于12月1日完成了A+++轮融资,投资方为蓝驰创投、中科创星、鼎晖投资、长飞基金、C资本、高瓴创投、立景创新、三花控股集团、基石资本、临港新片区基金及银杏谷资本,共计11家VC在此轮进场。其中,高瓴创投、鼎晖投资、临港新片区基金三家机构都是加注,高瓴更是1..

1314亿估值过高?“富二代”极氪IPO故事难讲新视界凤凰网科技 新视界 出品作者|林思艺编辑|蒋浇极氪加快赴美上市的脚步。继11月10日向美国证券交易委员会(SEC)提交IPO招股书后,11月25日,极氪更新了招股书,不过这次并未公布发行区间,也没有公布发行规模。这意味着极氪在上市前至少还会更新一次招股书。若能成功IPO,成立不到三年的极氪将刷新国内新势力车企的上市速度,成为“史上最快IPO”的造车新势力。毕竟这一步,蔚来花了4年、理想花了5年、小鹏花了6年。极氪从一..

用AI控制底盘,华为在下一盘什么大棋?前沿科技,数智经济文|刘俊宏编|王一粟“线控底盘是高级自动驾驶的必然需求,毫无疑问将是未来汽车底盘系统发展的主导方向。”中汽创智首席技术官周剑光在2023中国汽车供应链大会上,一语揭开了智能底盘的重要性。线控底盘,作为汽车智能底盘发展的必经之路,是对传统汽车底盘的电子化改造。在电信号替代传统底盘的机械信号后,汽车的操控可以实现“人机解耦”。而当前,底盘已经在从电子化向智能化的方向发展。在汽车传感器、..

ofo戴威二次创业败走美国,咖啡馆仅剩一家文|《中国企业家》记者 邓双琳编辑|李薇头图来源 |中企图库今年上半年,ofo创始人戴威在美国的咖啡创业项目About Time Coffee迅速走红——这家挂着红色霓虹招牌的连锁小型咖啡店,在纽约格拉梅西公园率先开业,很快,又在曼哈顿市中心的繁华地段开了四家连锁店。然而,繁华很快落幕。《中国企业家》获悉,About Time Coffee仅剩纽约麦迪逊大道一家店营业,其余四家均显示“已永久关停”。《中国企业家》在Instagram搜索..

字节OpenAI账号被封禁,这事儿到底谁错了?不知道各位差友听说没,字节的 OpenAI 账号,被封了。。。根据 OpenAI 的说法,就在上周五,他们暂停了字节的账号,具体发生了啥,现在也还在进一步调查中。世超也去查了查,发现事情,是由外媒 The Verge 的一则报道引起的。据报道,字节跳动正在悄咪咪地用 OpenAI 的 API ,做一些 “ 不太光彩 ” 的事儿。和大伙们用 AI 水周报,糊弄领导不一样,按照 The Verge 的说法,字节直接在用 OpenAI 训练自家..

NVLink,英伟达的另一张王牌美国商务部的口风越来越紧,逼得黄式刀法重出江湖:多方证实,英伟达即将推出三款特供版GPU,由于出口管制,性能最强的H20,相较H100算力也大幅缩水80%。算力被限制死,英伟达也只能在其他地方做文章。H20的最大亮点落在带宽:带宽达到与H100持平的900G/s,为英伟达所有产品中最高。较A100的600G/s,和另外两款特供芯片A800和H800的400G/s大幅提高。阉割算力,提升带宽。看似割韭菜,实则含金量不低。H20踩着红线免受制裁简单来..

周受资在2023:“满级人类”的丛林生存动物曾经凶猛,但涛涛洪流过去,周受资更像一棵植物,试图带领 TikTok 在急剧变化又无法逃离的丛林中保持生长力。撰文|赵卫卫多年之后,周受资回忆起这跌宕起伏的 2023 年,肯定不只是他在 TikTok 上发布的 18 条短视频那么简单和轻松。2023 年,是他发布短视频内容最多的一年,基本保持一个月一到两条的节奏。在年初,经历过今年3月全球瞩目的舌战国会山,他的 TikTok 粉丝从 2 万飙升到了 300 万;到了年末,他..