微软推出Phi-2，一款小型但强大的语言模型

微软发布Phi-2 – 一款小巧但功能强大的语言模型

当你想到与生成型人工智能（AI）有关的语言模型时，你可能首先想到的是大语言模型（LLM）。这些LLM为大多数受欢迎的聊天机器人提供动力，如ChatGPT、Bard和Copilot。然而，微软的新语言模型展示了在生成型AI领域中小语言模型（SLMs）也具有巨大潜力。

周三，微软发布了Phi-2，这是一个能够进行常识推理和语言理解的小语言模型，现在可以在Azure AI工作室模型目录中使用。

不过，不要被“小”字所愚弄。Phi-2的模型中包含了27亿个参数，这相比于1.3亿个参数的Phi-1.5来说是一个巨大的飞跃。

据微软称，尽管尺寸较小，Phi-2在拥有不到130亿个参数的语言模型中展示出了“最先进的性能”，甚至在复杂的基准测试中超越了规模大25倍的模型。

如下所示，Phi-2在多个不同的基准测试中超越了包括Meta的Llama-2、Mistral以及谷歌最强大的LLM版本Gemini的最小版本Gemini Nano 2在内的其他模型。

Phi-2的性能结果与微软关于Phi的目标是开发具有新兴能力并且性能可与规模更大模型相媲美的SLM的目标一致。

微软表示：“有一个问题是，是否可以通过训练的战略选择（例如数据选择）在较小的规模上实现这样的新兴能力。”

微软在Phi-2的训练中非常精选使用的数据。公司首先使用了它所称的“教科书级别”的数据。然后，微软通过添加经过精选和过滤的具有教育价值和内容质量的网络数据来扩充语言模型数据库。

那么，为什么微软专注于SLMs呢？

对于LLMs而言，SLMs是一种经济高效的替代品。当任务不足以需要LLM的强大性能时，较小型号的模型也非常有用。

此外，运行 SLMs 所需的计算能力比LLMs要少得多。这种降低的需求意味着用户不一定需要投资昂贵的GPU来满足他们的数据处理需求。