字节OpenAI账号被封禁,这事儿到底谁错了?

2023-12-20 04:40:55 来源:网络

不知道各位差友听说没,字节的 OpenAI 账号,被封了。。。

根据 OpenAI 的说法,就在上周五,他们暂停了字节的账号,具体发生了啥,现在也还在进一步调查中

世超也去查了查,发现事情,是由外媒 The Verge 的一则报道引起的。

据报道,字节跳动正在悄咪咪地用 OpenAI 的 API ,做一些 “ 不太光彩 ” 的事儿。

和大伙们用 AI 水周报,糊弄领导不一样,按照 The Verge 的说法,字节直接在用 OpenAI 训练自家的大模型

一般遇到类似传言,世超不会太在意,毕竟套壳大模型、用别家大模型训练自家大模型等等,相关的消息隔三岔五就会来那么一次。

而且都是一些风言风语,没啥实锤,也没啥后续。

但这次不一样了,报道里的内部消息,至少看起来都贼真。

他们说是弄到了字节内部泄露的一份文件。

里面主要讲了字节的大模型项目—— “ 种子计划 ” 的开发过程,几乎在每个阶段,包括训练还有评估,字节的大模型都用了 OpenAI 的 API 。

另外,像是怎么 “ 通过数据脱敏,不被人抓到小尾巴 ” 这类的内部飞书聊天记录,也都给曝出了。

再加上 OpenAI 的直接封号,还真有点坐实了报道里内容的味道。

反正一时间,网友们都纷纷出来吃瓜,各种阴阳国产大模型的言论都出来了——

“ 怪不得国产大模型们一个个都开发得这么快,原来是在偷师 GPT 啊? ” “ 国内的大模型都一股 GPT 味儿,原来问题出在这儿。 ”

国内媒体们都一股脑儿地转载报道,话题还一度飙上了知乎热榜。

而大伙们也应该发现了,争议的中心在于,字节可能调用 OpenAI API 给自家大模型生成训练数据

说实话,相较与简单粗暴,甚至有些无底线的套壳,这手段,其实文明了不少了。。。

在大模型领域里,我们一般叫它大模型知识蒸馏

从名字来看,估计各位差友也能猜出来个一二三,就是用已经训练得差不多的先进大模型,生成一些优质语料,然后再把生成的这些语料喂给更小模型。

说好听点,大模型的知识蒸馏,是帮大家省了前期标注数据、提取优质语料库的功夫,说难听点,这就是在吃别人已经嚼烂的食物,好偷懒省力。

看到这儿,肯定有人会说了,大模型做出来,不就是让人用的么,用户爱咋用咋用,这波字节没做错啥啊?

话是这么说,但是 OpenAI 早就料到了这一手,为了防止自己的数据被薅、被蒸馏, OpenAI 在自家的服务协议早就埋伏上了。

不只有企业,包括个人开发者在内, OpenAI 都禁止他们用 OpenAI 的大模型,去开发竞品。

普通用户那儿, OpenAI 也没放过。

它给 ChatGPT 和 DALL·E 都套上了枷锁,同样也不让用输出的内容,训练与 OpenAI 竞争的模型。

只要你违反上面那些规定了,按照官方的说法,就只是提前知会一声,随时终止服务

这些条例就跟唐僧念符之下的紧箍咒一样,越来越紧。。。咱明眼人也都能看出 OpenAI 在自家 “ 数据安全 ” 这块是下狠招了。

虽说字节用的 API 不是从 OpenAI 这边直接买的,而是买的微软 Azure 上的云服务 Azure OpenAI 。

但从微软那边买,同样也是受这个协议约束。

或许是因为这些原因,才有了开头先封号处理,再进一步调查字节的局面。

看着这一盆盆 “ 脏水 ” 泼过来,字节也没干坐着,在周末加班一一给出了回应。

首先,他们称在开发大模型的时候,只是在初期探索阶段用了 GPT 的 API 服务,并且探索阶段的模型还只是测试,没有上线对外使用

并且根据字节的说法,今年四月份他们内部就明确规定,不能用 GPT 生成的数据训练自己的大模型。

更重要的是,他们说九月份内部还搞了个检查,主要的任务就是看他们的训练数据和 GPT 的相似程度

未来几天里,他们还准备再来一次全面检查,以确保严格遵守相关服务的使用条款。

到现在为止,反正各方的回应是一箩筐,至于字节到底有没有违反 OpenAI 的服务协议,从现在的信息来看我们也做不出啥判断,只能等后续双方沟通的结果。

不过,在训练大语言模型这块,数据来源的争议其实一直都蛮大。

OpenAI 训练大模型的时候,也曾在数据上栽了不少跟头。

就比如 ChatGPT ,它主要就是爬取一些社交媒体网站、或者论坛、贴吧上的数据。

刚开始,这些数据他们都是免费爬的,但后来 OpenAI 的 ChatGPT 还有 DALL·E 慢慢出圈,一些问题就连带着浮出水面了。

这两个大模型爆火的那段时间, OpenAI 吃的官司是一个接一个。

文生图大模型被各种图片网站、艺术家们起诉,大语言模型被社交平台上的博主索赔。。。

与此同时,各大平台也都开始注重数据价值,像是美版贴吧 Reddit ,还有程序员问答网站 StackOverflow 等等这种优质语料多的网站,都开始设置付费门槛,交钱才能爬取数据。

但在此时 OpenAI 的大模型已经发育起来了,过去网络上的数据该爬的也都爬了。

这下就苦了那些后来者,前期还不仅要做一些标注语料库的重复劳动,还得付费再爬一遍数据。

不过世超觉得,这次真如 The Verge 报道中说的,那这个 “ 锅 ” 铁定还是要字节来背,毕竟相关的条例,早就写在协议里了,拿人家的手短,人家还真有理。

最后,世超想说的是,自从大模型流行以来,业内类似的争议也好、丑闻也好,其实基本就没断过。

就比如前不久,李开复的大模型 Yi 被扒出是 “ 套壳 ” Meta 的 LLaMA ,虽说后者也是开源的,但要用也得注明。

但李开复还是在网上舆论发酵之后,才不痛不痒地回应了句命名疏忽。。。

更离谱的是,大模型内部还和机圈儿一样,流行起了跑分热

有的企业为了让自己的模型分数更好看一点,直接搞起了小动作。

前段时间谷歌的 Gemini ,为了让自家模型的分数比 GPT-4 好看,在测试方法上就动了些手脚。

国内某团队也曾发布过技术报告,里面明晃晃地指出了大模型刷榜的乱象。

他们直接把测评的题目,先喂给了自家大模型。

相当于是开卷刷榜,让自家的大模型在一群 “ 做题家 ” 中脱颖而出。

当然,新兴领域一开始都是乱象丛生,有这些丑闻也不是啥新鲜事儿。

世超也希望,未来,大模型厂商们能主打一个诚实,别今天暴打 GPT-4 ,明天又暴打 OpenAI 的了。

还有用了谁谁谁的数据,用了哪些开源资源,也大大方方承认,作为一个追赶者、学习者,其实没啥丢脸的。。

再回到字节和 OpenAI 这档子事儿,要是真相水落石出,字节确实是被冤枉,世超也希望 OpenAI 和媒体们能立马化身墙头草,还字节一个清白。

少一些套路,多一些真诚,大模型可以有幻觉,人嘛,还是实诚点好。

撰文:松鼠 编辑:江江 封面:焕妍

,字节Ope盛爱颐 nAI账号被封禁,这事儿到底谁错了?

相关:

NVLink,英伟达的另一张王牌美国商务部的口风越来越紧,逼得黄式刀法重出江湖:多方证实,英伟达即将推出三款特供版GPU,由于出口管制,性能最强的H20,相较H100算力也大幅缩水80%。算力被限制死,英伟达也只能在其他地方做文章。H20的最大亮点落在带宽:带宽达到与H100持平的900G/s,为英伟达所有产品中最高。较A100的600G/s,和另外两款特供芯片A800和H800的400G/s大幅提高。阉割算力,提升带宽。看似割韭菜,实则含金量不低。H20踩着红线免受制裁简单来..

周受资在2023:“满级人类”的丛林生存动物曾经凶猛,但涛涛洪流过去,周受资更像一棵植物,试图带领 TikTok 在急剧变化又无法逃离的丛林中保持生长力。撰文|赵卫卫多年之后,周受资回忆起这跌宕起伏的 2023 年,肯定不只是他在 TikTok 上发布的 18 条短视频那么简单和轻松。2023 年,是他发布短视频内容最多的一年,基本保持一个月一到两条的节奏。在年初,经历过今年3月全球瞩目的舌战国会山,他的 TikTok 粉丝从 2 万飙升到了 300 万;到了年末,他..

为了大华为,大嘴宜闭嘴文|江小花请允许我在今天的《六日谈》开头,先对我心目中最好的周芷若的扮演者周海媚的去世,献上七零后的缅怀。周海媚长得并不算特别出众,但被她那一双如晚星般杀人又放火的星眸,闪过一次,便挥之难去,盖过了青春时拂过小心脏的无数美丽的刀光剑影。其实我一直很想聊一聊人工智能,但总觉得墙内似乎对这事儿兴致不高。比如这个星期看到一个段子,曰:我们在人工智能的发展方向上是不是搞错了,原本以为人工智能是用来为人类..

2023年各大手机厂,还出了这些逆天的电子“垃圾”…这几个月又是发哥成了,又是 8Gen3 旗舰疯狂内卷,着实把我们编辑部忙的够呛。毕竟安卓旗舰集体超越 iPhone 的光景,可真是不常见。结果没想到 2023 年的手机市场,还有高手 ——除了人人叫好的旗舰手机、性价比手机之外,手机厂商们还偷偷发布了不少性价比齐烂、割韭菜都嫌寒碜的手机。其中大部分在线上夹着尾巴,藏在各种宣传的犄角旮旯,但却在线下明晃晃摆着卖,堪称 “旗舰手圾”。而且这样的旗舰圾,华、米、荣、O..

高通骁龙X Elite芯片搅动PC市场,宣称多核性能比苹果M3高出21%IT之家 12 月 18 日消息,据 Digitaltrends 报道,高通近日展示了其全新骁龙 X Elite PC 芯片的性能,并大胆宣称其在多个方面超越了苹果最新 M3 系列芯片,尤其是在 AI 能力方面。据IT之家了解,骁龙 X Elite 芯片搭载骁龙 Oryon CPU,是高通十月份发布的明星产品,当时对比的是苹果 M2 Max 芯片。高通方面当时表示,自家的芯片在峰值性能方面可以与同级别的 ARM 架构竞争对手相媲美,同时功耗降低 30%..

华为“纯血鸿蒙”明年亮相!鸿蒙先锋应用上线 安卓再见快科技12月17日消息,自9月华为宣布鸿蒙原生应用全面启动以来,已有社交、影音、游戏、金融、食品等领域的企业加入鸿蒙生态建设,开发鸿蒙原生应用。日前,华为应用市场众测版新增“鸿蒙先锋应用专区”,与之前的鸿蒙应用专区不太一样。这些应用放在鸿蒙先锋应用专区是代表已经官宣进行鸿蒙原生应用开发,也可以说是为鸿蒙原生应用提前宣传引流。如果想正式用上这些鸿蒙原生应用,用户需等待HarmonyOS NEXT版本。据了解,目前To..

过气“安卓一哥”新机上市,高价低配狠收智商税?有的手机品牌名义上活着,其实已经死了。有的手机品牌已经死了,但还隔三差五推出新机「诈尸」告诉大家「我还活着」——2023年12月,曾经的Android王者、沉寂已久的HTC表示2024年还要再出两款新机。图片来源:HTC考虑到大家已经不记得HTC有什么手机了,我们先来回顾一下HTC「全新亮相」的新手机:HTC U23 Pro在硬件配置上没有任何值得拿出来讲的地方——这款原价新台币15490元(约合人民币3532元)的手机,用的甚至是2022年定..

乌方承认:在东部战线“处于劣势”参考消息网12月19日报道 据法新社12月19日报道,乌克兰方面19日表示,其军队在东部哈尔科夫地区的武器装备和兵力均处于劣势,俄罗斯军队数月来一直在该地区推进攻占地区中心库皮扬斯克的计划。报道称,俄罗斯军队曾一度占领了哈尔科夫东部的大片地区,但基辅的军队在约一年前通过闪电攻势将其击退。乌克兰陆军司令亚历山大·瑟尔斯基表示:“情况很复杂。我们必须在敌人在武器和人员数量上都占优势的情况下进行战斗。”但瑟尔斯..

胡塞武装:无论付出多大的牺牲都不会停止行动参考消息网12月19日报道 据法新社12月19日报道,伊朗支持的也门胡塞武装19日表示,尽管美国宣布组建一支新的海上保护部队,但他们不会停止对红海航运的袭击。报道称,胡塞武装高级官员穆罕默德·布海提在社交平台X(前推特)上表示:“即使美国成功地动员了整个世界,我们的军事行动也不会停止……无论我们要付出多大的牺牲。”另据路透社12月19日报道,法国外交部长卡特琳·科隆纳在巴黎会见英国外交大臣戴维·卡梅伦时表示,..

中俄签署反垄断领域合作谅解备忘录12月19日,在国务院总理李强和俄罗斯总理米舒斯京见证下,国家市场监督管理总局局长罗文与俄罗斯联邦反垄断局局长沙斯科斯基在北京共同签署了《中华人民共和国国家市场监督管理总局和俄罗斯联邦反垄断局谅解备忘录(2024—2025)》。根据该谅解备忘录,中俄双方将开展反垄断、反不正当竞争和广告领域的交流合作。