Uploads%2farticles%2f16380%2fapple openelm on device ai
|
2024-04-26

苹果、微软双发小语言模型,iPhone、PC 端侧 AI 要来了?

Build、WWDC 两场技术大会,或见分晓。

在去年年中和年末,微软分别推出了 Phi-1、Phi-2 轻量级语言模型,这类模型主要为简单任务处理设计,具有使用简单、尺寸小等特性。

4 月 23 日,微软又带来了新一代 Phi-3 系列。

此次发布的 Phi-3 系列,有 Phi-3-mini(3.8B)、Phi-3-small(7B)、Phi-3-medium(14B)不同版本。

微软强调,Phi-3 系列虽然训练参数较少,但在语言理解、推理、数学等能力上,不弱于更大尺寸模型。

据微软公布的数据,Phi-3-mini 综合能力,超过了 Google Gemma-7B、Mistral-7B,而 Phi-3-small 与 Phi-3-medium,甚至超过了 Mixtral 8x7B、Claude-3 Sonnet 与 GPT-3.5。

Screenshot-2024-04-23-102615

△ 图源:微软

Phi-3-mini 则是该系列率先发布的版本,Phi-3-small、Phi-3-medium 也将在不久后开放。

Phi-3-mini 具有小巧、易用、跨平台的特点,38 亿参数语言模型,可以适用于端侧运行,如笔电、手机。

此外,Phi-3-mini 经过微软推理框架 ONNX Runtime 优化,可支持 DirectML,对 CPU、GPU、移动硬件的跨平台支持。并且,Phi-3-mini 也为 Nvidia GPU 做了优化,可作为 Nvidia NIM 推理微服务,以标准 API 执行。

Phi-3-mini 有两种上下文长度变体 4K 和 128K token,经过训练,可以遵循不同类型的指令,理解用户的意图。

The-Phi-3-small-language-models-with-big-potential-1

△ 图源:微软

微软表示,Phi-3-mini 还是同尺寸模型中,首个能支持 128K token 的 SLM。

目前 Phi-3-mini 已在 Microsoft Azure AI Studio、Hugging Face 和 轻量框架 Ollama 上使用。

Phi-3-mini-4k-instruct-gguf

△ 图源:huggingface

印度农业集团 ITC 以 Copilot 开发的 AI 应用,将部署 Phi-3,更好地服务当地农民。

而 AI PC 显然会是 Phi-3 施展的重要战场,下月的 Build 大会上,或许我们就将能见到新东西。

另一边,苹果最近在 AI 开源平台 Hugging Face 上发布了开源训练推理语言模型 OpenELM。

OpenELM

△ 图源:huggingface

OpenELM 也定位为小语言模型,共有 4 个尺寸:2.7 亿、4.5 亿、11 亿和 30 亿个参数,提供生成文本、代码、翻译、总结摘要等功能。

虽然最小的参数只有 2.7 亿,但苹果使用了包括 RefinedWeb、PILE、RedPajama 子集和 Dolma v1.6 子集在内的公共资料集,一共约 1.8 万亿 token 资料进行了预训练 ,采用了CoreNet 作为训练框架,并使用了 Adam 优化演算法进行了 35 万次迭代训练。

训练参数小,但性能可能并不弱。

其中公布的数据显示,11 亿参数的 OpenELM 比 12 亿参数的 OLMo 模型的准确率高出 2.36%,而使用的预训练资料却只有 OLMo 的一半。

OpenELM-bench

△ 图源:buzzbyte

同时,苹果还发布了将模型转换为 MLX 库的编码,以方便其在苹果设备上推理和调整。

苹果开发团队表示:

此次 OpenELM 发布旨在增强和巩固开放社区,为未来工作铺平道路。

早在今年 2 月,库克就曾表示,苹果生成式 AI 功能将于「今年稍后」推出。而有消息称,将在 6 月举办的 WWDC 24 上发布的 iOS 18,有可能成为 iOS 史上 「最大」更新,9 月还将推出首款 AI iPhone。

如今,苹果似乎也在 AI 手机的尾声,追赶上了行业脚步。


主笔:达达 / 深圳湾

编辑:陈述 / 深圳湾

题图来源:buzzbyte

>>
Back to top btn