微软发布Phi-3 Mini:3.8B参数小到能塞进手机,性能媲美GPT-3.5

2024-04-25 06:15:04 来源:网络

编译 | 长颈鹿

编辑 | 香草

智东西4月24日报道,4月23日,微软在官网开源了小语言模型(SLM)——Phi-3-mini。这是微软Phi-3系列模型推出的首个模型。

Phi-3-mini作为微软Phi系列的第四代产品,以其38亿参数和3.3T tokens的庞大训练数据量,在语言、推理、编码和数学基准测试中超越了众多数百亿参数规模的模型。

此外,Phi-3-mini有4k和128k tokens两个上下文长度变体,经过预训练和指令调整,可以更好地理解人类的语言、表达、逻辑并执行不同类型的指令。

与大语言模型相比,Phi-3-mini模型操作更为简便。该模型的体积很小,这一特性使其可以在端侧部署和运行。据称,该模型可以作为聊天机器人离线访问,且具有不亚于GPT-3.5的性能。

Phi-3-mini的成本大幅降低。微软生成式AI研究副总裁塞巴斯蒂安·布贝克(Sébastien Bubeck)称,相比于其他相似功能的模型,Phi-3-mini成本可能只有十分之一。

据微软研究团队称,Phi-3-mini小体积、高性能的创新归功于由合成数据组成的数据集。该数据集由大量已过滤的网络数据和其他AI制作的儿童读物中的合成数据组成。

微软计划在未来几周内推出Phi-3系列的另外两个模型,分别是Phi-3-small(7B)和Phi-3-medium(14B)。

目前有三个平台可以获取Phi-3-mini:

Microsoft Azure AI Studio:

https://ai.azure.com/explore/models/Phi-3-mini-128k-instruct/version/2/registry/azureml

Hugging Face:

https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

Ollama:

https://ollama.com/library/phi3

01.

“小而美”的模型

Phi-3-mini优于两倍其尺寸模型

据微软官网称,Phi-3模型是目前能力最强、性价比最高的小型语言模型(SLM),其在多种语言、推理、编码和数学基准测试中均展现出超越同等规模甚至更大型模型的能力。

Phi-3-mini包含两种上下文长度的规模,分别是4k和128k tokens,其中128k tokens的上下文窗口支持在同类模型是首次实现,且对模型质量的影响微乎其微。此外,该模型经过指令微调,能够以自然语言方式响应和执行多种指令,确保了其即时可用性。

Phi-3模型在小尺寸上具有突破性的性能。根据微软研发团队的测试,Phi-3模型在基准测试中优于相同尺寸和更大尺寸的语言模型。其中,Phi-3-mini的性能优于其尺寸两倍的模型,而Phi-3-small和Phi-3-medium的性能优于更大的模型,包括GPT-3.5 Turbo。

根据性能对照表,Phi-3-mini的两个变体于基准测试的19个对比项中,有17项胜过Gemma-7b模型,18项胜过Mistral-7b模型,11项胜过Llama-3-8B模型。但也有11项次于GPT3.5-Turbo模型,17项次于Claude-3 Sonnet模型。

图片

▲Phi-3系列基准测试对照表(图源:微软)

此外,微软还在学术报告中称Phi-3模型的整体性能可以与Mixtral 8x7B和GPT-3.5等模型相媲美。

Phi系列模型的起源于微软研究部门,已经被广泛使用,其中Phi-2下载量超过200万次。从用于Python编码的Phi-1开始,到增强推理和理解的Phi-1.5,再到27亿参数的Phi-2,Phi系列在语言理解方面超越了其25倍参数大小的模型。

微软计划在未来几周内推出Phi-3系列的另外两个模型,分别是Phi-3-small(7B)和Phi-3-medium(14B),旨在为Azure AI和其他模型库提供更灵活的选择。

02.

Phi-3遵循安全和高质

Phi-3-mini为多个平台专门优化

Phi-3模型的设计遵循了微软的“负责任AI标准”,包括问责制、透明度、公平性、可靠性与安全性、隐私与安全和包容性。Phi-3模型经历了严格的安全度量和评估、红队测试、敏感用途审查,并遵循安全指南,以确保这些模型在开发、测试和部署过程中都符合微软的标准和最佳实践。

Phi-3模型在训练过程中采用了高质量的数据,这是基于先前的Phi模型工作的延续。它们还通过了广泛的安全后训练,包括从人类反馈中进行的强化学习(RLHF)、在数十个伤害类别上进行的自动测试和手动红队测试。

此外,Phi-3-mini在Azure AI上配备了一套完整的部署、评估和微调工具链,并通过Ollama平台使开发者能够在本地笔记本电脑上运行。模型还针对ONNX Runtime进行了优化,支持Windows DirectML,并且实现了跨平台支持,包括GPU、CPU和移动硬件。

同时,Phi-3-mini也作为英伟达推理微服务(NVIDIA NIM)提供,具备可广泛部署的标准API接口,并对英伟达GPU进行了专门优化。

03.

Phi-3提供离线推理场景

AI解决方案已落地印度

微软公司通过提供Copilots帮助客户用生成式AI进行业务转型。他们认为,不同任务对质量成本曲线上不同规模模型的需求正日益增长。

小语言模型,如Phi-3,特别适用于以下情况:资源受限的环境,包括设备上和离线推理场景;延迟约束的场景,快速响应时间至关重要;以及成本受限的用例,特别是那些具有较简单任务的用例。

由于尺寸较小,Phi-3模型可以在计算受限的推理环境中使用,特别是Phi-3-mini可以在端侧使用。Phi-3模型的较小尺寸还使得微调或定制变得更加容易和更具成本效益。此外,较低的计算需求使其成本更低,延迟更好。较长的上下文窗口使其能够处理和推理大量的文本内容,如文档、网页、代码等。

微软的一些客户已经开始使用Phi-3构建解决方案。比如农业领域,Phi-3模型为农民提供了更便捷、更经济的解决方案,并帮助他们在没有稳定互联网连接的情况下使用AI技术。

印度一家领先的商业集团ITC正在将Phi-3模型用于Krishi Mitra(一款面向农民的应用程序)内,帮助印度农民通过技术手段获得更好的农业解决方案。据悉,该应用已经覆盖了超过一百万名农民。

04.

结语:大小模型相辅相成

离线AI聊天已成现实

微软的Phi-3模型设计的初衷旨在兼容多种设备。Phi-3与Stability AI的Zephyr、谷歌的Gemini Nano和Anthropic的Claude 3 Haiku等小型模型一样,能够在端侧运行,而无需依赖互联网连接。

尽管云端大模型在性能上全面超越小模型,但它们也存在一些局限性,包括较高的成本、运行速度以及对互联网连接的依赖。相比之下,Phi-3允许用户在没有网络的情况下与虚拟助手进行互动,能够在不上传数据的前提下实现内容总结,解决了AI领域的一部分弊端。

未来这类模型有望与智能手机集成,甚至可能内置于常用家电中,为用户的生活提供个性化建议。我们期待AI变得越来越生活化,也期待小语言模型在未来的进步。

,微软发布Phi-3 Mini:3.8B参数小深圳航空官网 到能塞进手机,性能媲美GPT-3.5

相关:

福岛第一核电站发生事故,驻日使馆发声问:今天上午,日本福岛第一核电站设备供电系统因故部分停止运行,相关作业人员受伤,监测废炉作业的“免震重要栋”断续停电。请问发言人对此有何评论?答:福岛第一核电站不断发生事故,一再表明东京电力公司管理失序混乱,难以保障作业安全,更加凸显了国际社会开展监督的必要性。我们将继续密切关注事故后续影响,再次要求日方正视周边邻国和国际社会关切,全面配合建立利益攸关方实质参与、独立、有效的长期国际监测安排,以..

“世界级名校校长告密,既可怖又可悲”

外交部副部长马朝旭会见美国阿斯彭学会代表团2024年4月24日,外交部副部长马朝旭会见美国阿斯彭战略小组共同主席、哈佛大学肯尼迪政府学院荣誉院长约瑟夫·奈率领的美国阿斯彭学会代表团。双方就中美关系和共同关心的问题交换了意见。

让特朗普困在法庭,一场朴实无华的党争中东问题纷纷扰扰,俄乌战争局势动荡,但对绝大多数美国媒体而言,这几天关注的问题只有一个,那就是特朗普接受刑事审判。在特朗普的律师团体穷尽一切拖延策略之后,由曼哈顿地区检察官阿尔文·布拉格提起的诉讼正式进入到庭审阶段。检察官布拉格指控特朗普在2016年前通过律师向成人电影女演员托米·丹尼尔斯支付了13万美元的封口费,用以让其在与特朗普是否发生性关系的问题上保持沉默。而特朗普及律师违反竞选法的相关规定,将..

专家:2030年国内放射性药物市场规模将达260亿元人民网北京4月23日电 (记者孙红丽)放射性药物是现代医学的重要组成部分。4月22日,2024年放射性药物创新发展大会在北京举行,集中呈现了放射性药物产业的最新成果。 近年来,“放射性药物”“核医疗”等核技术应用产业在推动经济持续发展、保障人民生命健康等方面作出了积极贡献,发挥了越来越重要的作用。 中国同位素与辐射行业协会理事长、中国核工业集团有限公司党组成员、副总经理申彦锋表示,核技术融合发展的时代潮流,..

织密医保基金监管防线  国家医保局等六部门近日联合印发《2024年医保基金违法违规问题专项整治工作方案》,要求聚焦虚假诊疗、虚假购药、倒卖医保药品等欺诈骗保违法犯罪行为,针对骨科、血透等重点领域,在全国范围开展专项整治工作。  医疗保障基金是群众的看病钱、救命钱。近年来,我国出台一系列法规制度,持续加强医保基金监管,体现了筑牢医保基金安全防线、守护好群众看病钱的决心。  由于医保领域违法违规问题具有广泛性、顽固性等特点..

“癌王”来得悄咪咪?那是没读懂胰腺的求救信号 胰腺癌是老百姓口中的“癌王”。早期胰腺癌的症状隐蔽,很多患者确诊时已达晚期,丧失了最佳手术切除机会。人们大多不知道,默默无闻却身负重任的胰腺也是会发出求救信号的。今天,我们就来聊聊胰腺癌的“预警信号”吧! 1号预警:各种难治的“肠胃病” 有些患者感觉长期的“肠胃不适”:腹痛腹胀;消化不良,食欲缺乏;恶心呕吐、腹泻便秘……但是这样的“肠胃问题”反复发作可能是胰腺癌的征兆。因为,在生理结构..

来个爱的抱抱 超减压! 著名的心理治疗师萨提亚曾说过:“我们每天需要四个拥抱才能生存,需要八个拥抱让我们精力充沛,需要十二个拥抱才能成长。” 没错,拥抱的力量被我们大大低估了。今天,医生就来跟大家聊聊拥抱的作用,也希望你在看完文章后,给你爱的人和爱你的人一个爱的抱抱! 拥抱时的身体在变化 拥抱、握手等身体接触行为都会促进个体体内催产素的释放。催产素又被称为拥抱激素、爱的荷尔蒙。催产素可以增加人与人之间的情..

有些妹子减肥 减着减着就进了妇科 眼看天气越来越热,身上的肉肉藏不住啦,赶快减肥!节食、大量的运动、吃各种减肥药……相信这些方法很多人都有尝试过,或是正在尝试的过程中。结局要么减重成功但伴随其他症状,要么减重失败直接放弃,要么减重短暂成功后又反弹。 在妇产科门诊,减重后月经减少、闭经的病例屡见不鲜,交流中发现大多数妹子在减肥的过程中,更关注变“美”的结果,而不是减重对健康品质的提升。今天,就来跟大家聊一聊过分关注瘦身效果..

“消博”观潮 新型消费好物加速“出圈”  重量更轻、性能更优的碳纤维自行车、“会呼吸”的人造草、听指令的“空中的士”……会期6天的第四届中国国际消费品博览会(以下简称“消博会”)上,数字消费、绿色消费、健康消费等新型消费好物加速出圈。   “展会第5天,我们带来参展的几十支碳纤维羽毛球拍全卖完了。”连续两年与消博会相约的毕然,是连云港神鹰碳纤维自行车有限公司副总经理。今年参展,他明显感觉到“展品的消费转化率较去年更高,展区内很多展品都..