2B参数越级跑赢GPT-3.5-Turbom,谷歌开源最强端侧小模型!

seekdeep1年前AI资讯550

谷歌也来卷「小」模型了,一出手就是王炸,胜过了比自己参数多得多的GPT-3.5、Mixtral竞品模型。

今年 6 月底,谷歌开源了 9B、27B 版 Gemma 2 模型系列,并且自亮相以来,27B 版本迅速成为了大模型竞技场 LMSYS Chatbot Arena 中排名最高的开放模型之一,在真实对话任务中比其两倍规模以上的模型表现还要好。



如今,仅仅过去了一个多月,谷歌在追求负责任 AI 的基础上,更加地考虑该系列模型的安全性和可访问性,并有了一系列新成果。



此次,Gemma 2 不仅有了更轻量级「Gemma 2 2B」版本,还构建一个安全内容分类器模型「ShieldGemma」和一个模型可解释性工具「Gemma Scope」。具体如下:


Gemma 2 2B 具有内置安全改进功能,实现了性能与效率的强大平衡;


ShieldGemma 基于 Gemma 2 构建,用于过滤 AI 模型的输入和输出,确保用户安全;


Gemma Scope 提供对模型内部工作原理的无与伦比的洞察力。


其中,Gemma 2 2B 无疑是「最耀眼的仔」,它在大模型竞技场 LMSYS Chatbot Arena 中的结果令人眼前一亮:仅凭 20 亿参数就跑出了 1130 分,这一数值要高于 GPT-3.5-Turbo(0613)和 Mixtral-8x7b。


这也意味着,Gemma 2 2B 将成为端侧模型的最佳选择。




苹果机器学习研究(MLR)团队研究科学家 Awni Hannun 展示了 Gemma 2 2B 跑在 iPhone 15 pro 上的情况,使用了 4bit 量化版本,结果显示速度是相当快。





此外,对于前段时间很多大模型都翻了车的「9.9 和 9.11 谁大」的问题,Gemma 2 2B 也能轻松拿捏。






与此同时,从谷歌 Gemma 2 2B 的强大性能也可以看到一种趋势,即「小」模型逐渐拥有了与更大尺寸模型匹敌的底气和效能优势。


这种趋势也引起了一些业内人士的关注,比如知名人工智能科学家、Lepton AI 创始人贾扬清提出了一种观点:大语言模型(LLM)的模型大小是否正在走 CNN 的老路呢?


在 ImageNet 时代,我们看到参数大小快速增长,然后我们转向了更小、更高效的模型。这是在 LLM 时代之前,我们中的许多人可能已经忘记了。


大型模型的曙光:我们以 AlexNet(2012)作为基线开始,然后经历了大约 3 年的模型大小增长。VGGNet(2014)在性能和尺寸方面都可称为强大的模型。


缩小模型:GoogLeNet(2015)将模型大小从 GB 级缩小到 MB 级,缩小了 100 倍,同时保持了良好的性能。类似工作如 SqueezeNet(2015)和其他工作也遵循类似的趋势。


合理的平衡:后来的工作如 ResNet(2015)、ResNeXT(2016)等,都保持了适中的模型大小。请注意,我们实际上很乐意使用更多的算力,但参数高效同样重要。


设备端学习?MobileNet(2017)是谷歌的一项特别有趣的工作,占用空间很小,但性能却非常出色。上周,我的一个朋友告诉我「哇,我们仍然在使用 MobileNet,因为它在设备端具有出色的特征嵌入通用性」。是的,嵌入式嵌入是实实在在很好用。


最后,贾扬清发出灵魂一问,「LLM 会遵循同样的趋势吗?」



图像出自 Ghimire 等人论文《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》。


Gemma 2 2B 越级超越 GPT-3.5 Turbo


Gemma 2 家族新增 Gemma 2 2B 模型,备受大家期待。谷歌使用先进的 TPU v5e 硬件在庞大的 2 万亿个 token 上训练而成。


这个轻量级模型是从更大的模型中蒸馏而来,产生了非常好的结果。由于其占用空间小,特别适合设备应用程序,可能会对移动 AI 和边缘计算产生重大影响。


事实上,谷歌的 Gemma 2 2B 模型在 Chatbot Arena Elo Score 排名中胜过大型 AI 聊天机器人,展示了小型、更高效的语言模型的潜力。下图表显示了 Gemma 2 2B 与 GPT-3.5 和 Llama 2 等知名模型相比的卓越性能,挑战了「模型越大越好」的观念。



Gemma 2 2B 提供了:


性能卓越:在同等规模下提供同类最佳性能,超越同类其他开源模型;


部署灵活且经济高效:可在各种硬件上高效运行,从边缘设备和笔记本电脑到使用云部署如 Vertex AI 和 Google Kubernetes Engine (GKE) 。为了进一步提高速度,该模型使用了 NVIDIA TensorRT-LLM 库进行优化,并可作为 NVIDIA NIM 使用。此外,Gemma 2 2B 可与 Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp 以及即将推出的 MediaPipe 无缝集成,以简化开发;


开源且易于访问:可用于研究和商业应用,由于它足够小,甚至可以在 Google Colab 的 T4 GPU 免费层上运行,使实验和开发比以往更加简单。


从今天开始,用户可以从 Kaggle、Hugging Face、Vertex AI Model Garden 下载模型权重。用户还可以在 Google AI Studio 中试用其功能。


下载权重地址:https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f


Gemma 2 2B 的出现挑战了人工智能开发领域的主流观点,即模型越大,性能自然就越好。Gemma 2 2B 的成功表明,复杂的训练技术、高效的架构和高质量的数据集可以弥补原始参数数量的不足。这一突破可能对该领域产生深远的影响,有可能将焦点从争夺越来越大的模型转移到改进更小、更高效的模型。


Gemma 2 2B 的开发也凸显了模型压缩和蒸馏技术日益增长的重要性。通过有效地将较大模型中的知识提炼成较小的模型,研究人员可以在不牺牲性能的情况下创建更易于访问的 AI 工具。这种方法不仅降低了计算要求,还解决了训练和运行大型 AI 模型对环境影响的担忧。


相关文章

上海AI Lab开始给大模型重新出题了,GPT-4o数学能力跑分直掉50%!

新模型在 MATH 上(以数学竞赛为主)动辄跑分 80% 甚至 90% 以上,却一用就废。这合理吗??为了真实检验模型数学推理能力,上海人工智能实验室司南 OpenCompass 团队放大招了。推出新...

高考报考GPT,百年育才发布会圆满落幕

2024年4月2日9:30,百年育才高考报考GPT正式发布。百年育才创始人金泰雄先生隆重推出了这款AI产品,以其创新性和出色的性能引起了广泛关注,通过人机对话完成高考志愿填报,体验科技的力量。发布会现...

解锁大模型时代的无限可能,从GPT-3到Sora

从2020年OpenAI的GPT-3到2023年的GPT-4再到2024年的文生视频模型Sora,我们见证了大模型领域创新速度之快。从百度、阿里和360等为代表的头部科技企业率先入局到互联网公司、AI...

AI视频生成迎来“GPT时刻”,Sora火爆全球

继Runway、Pika、字节PixelDance、万兴“天幕”发布,2月16日凌晨,“王炸”模型Sora横空出世,AI视频生成迎来“GPT时刻”。在Open AI公布的48个样片中,Sora展现出令...

蚂蚁首次公布AI应用矩阵;OpenAI已启动开发“GPT-5”;百度智能云推出“千帆行业增强版”

今日AI daily早新闻主要内容有:OpenAI宣布已启动下一代前沿模型训练,传言已久的“GPT-5”已经开始了;蚂蚁首次公布AI应用矩阵;百度智能云推出“千帆行业增强版”,加速行业大模型应用落地。...

程序员被骗1.8万元,GPT写的代码竟有后门

程序员被骗1.8万元,GPT写的代码竟有后门

随着AI大模型技术的不断进步,众多职业的工作效率得到了显著提升。例如,在编程领域,这些先进的AI工具不仅能够协助程序员编写代码,还能高效地解决程序中的BUG,成为开发者们不可或缺的助手。然而,近期发生...