钢铁论坛

标题: 谷歌又“卷”出了端侧小模型 Gemma 2 2B [打印本页]

作者: Ariers 时间: 2024-8-2 10:50
标题: 谷歌又“卷”出了端侧小模型 Gemma 2 2B
在 AI 技术的快速发展下，语言模型的规模和能力也在不断壮大。从最初的几百万参数发展到如今动辄数十亿甚至数百亿参数的模型，每一次技术革新都伴随着巨大的计算资源需求——然而，高昂的成本和复杂的部署流程也因此成为了限制模型广泛应用的主要障碍。
在这样的背景下，今年 2 月谷歌发布了首批 Gemma 系列模型。不同于其旗舰产品 Gemini 模型，Gemma 的体积更小、完全开源、可免费使用，而 Gemini 系列模型体积更大且闭源，此外开发者需付费才能使用。

到了 6 月份，谷歌又开源了 Gemma 2，拥有 27B（270 亿）和 9B（90亿）两种参数规模，其中 27B 版本很快就在 LMSYS Chatbot Arena 排行榜上占据高位，在实际对话中甚至超越了参数规模是其两倍多的热门模型。

事实证明，在搞「小」模型这件事上，谷歌贯彻的路线似乎是“既然卷不死，就往死里卷”。

今日凌晨，谷歌再次最新推出了 Gemma 2 的 2B（20 亿）参数版本。据了解，这个 2B 模型在 LMSYS Chatbot Arena 测试中得分 1130，比 GPT-3.5-Turbo-0613的 1117 分和 Mixtral-8x7b 的1114 分都要高——Gemma 2 2B 几乎可谓是：同等参数规模中最强模型。
整体而言，作为一款轻量级 LLM，Gemma 2 2B 是谷歌专为在笔记本电脑和智能手机等本地设备上运行而设计的，故而其具备以下三个特点：

性能卓越：以其规模而言，它提供了同等模型中的最佳性能，也超越了同类中的其他开源模型。

灵活且经济的部署：Gemma 2 2B 可以在广泛的硬件上高效运行，从边缘设备、笔记本电脑，到依托 Vertex AI 和 Google Kubernetes Engine（GKE）的强大云部署环境。为了进一步提升速度，该模型利用 NVIDIA TensorRT-LLM 库进行了优化，并作为 NVIDIA NIM 提供。这种优化面向各种部署场景，包括数据中心、云端、本地工作站、PC 及边缘设备——利用 NVIDIA RTX、NVIDIA GeForce RTX GPU 或 NVIDIA Jetson 模块进行边缘 AI 处理。此外，Gemma 2 2B 无缝集成 Keras、JAX、Hugging Face、NVIDIA NeMo、Ollama、Gemma.cpp，并即将支持 MediaPipe，大幅简化了开发流程。

开源且易于使用：Gemma 2 2B 遵循商业友好的 Gemma 条款，适用于研究和商业应用。它体积小巧，足以在 Google Colab 的 T4 GPU 免费层上运行，让实验和开发变得更加容易。

除了 Chatbot Arena 得分，谷歌透露 Gemma 2 2B 在“大规模多任务语言理解”（Massive Multitask Language Understanding）基准测试中获得了 56.1 分，在“基本 Python 编程”（Mostly Basic Python Programming）测试中也获得了 36.6 分，相比早期 Gemma 模型得分均有所提高。

欢迎光临钢铁论坛 (//luntan.steelhome.cn/)