谷歌发布Gemini 1.5 Pro:通过更大的上下文窗口增强GenAI模型

谷歌最新添加到Gemini GenAI系列的Gemini 1.5专业版,拥有广泛的上下文窗口,但目前只提供内部预览

谷歌发布了Gemini 1.5 Pro,通过扩大上下文窗口改善GenAI模型

去年十月,谷歌数据科学家Matei Zaharia、Databricks的首席技术官以及加州大学伯克利分校的Pieter Abbeel发表了一篇研究论文,提出了一种方法来实现诸如OpenAI的GPT-4和ChatGPT等GenAI模型处理更多数据的能力。该研究证明,通过解决内存瓶颈,模型现在可以处理数百万个单词,而不仅仅是几十万个。

嘿,看来人工智能研究发展速度非常快,因为谷歌刚刚宣布推出了Gemini 1.5 Pro,这是其Gemini系列GenAI模型的最新成员。这个新模型相对于其前身Gemini 1.0 Pro有着各种改进,其中一个特别显著的进步就是它处理大量数据的能力。

Gemini 1.5 Pro可以处理约70万个单词或大约3万行代码。这比Gemini 1.0 Pro处理能力提高了令人印象深刻的35倍。而且最棒的是,Gemini 1.5 Pro不仅限于文本。它还可以处理多语种的11小时音频或1小时视频。

🌟 Gemini 1.5 Pro – 卓越的多模态 🌟

需要澄清的是,上述数字代表了Gemini 1.5 Pro能力的上限。目前开放给开发人员和限定预览阶段的客户的版本一次只能处理约10万个单词。这个“实验性”大数据输入模型目前只对私人预览的开发人员开放。然而,一些使用谷歌的Vertex AI平台的客户也可以访问这个版本。

Google DeepMind的研究副总裁Oriol Vinyals对这一成就表示兴奋,并强调与GenAI模型进行更长时间和更复杂互动需要更长的上下文窗口。简而言之,您输入和输出模型的信息越多,它理解和有效响应所需的上下文就越多。Gemini 1.5 Pro已经以巨大的方式解锁了这种长期上下文。

大上下文,大潜力

在模型中引入大上下文窗口有着重大的影响。具有小上下文窗口的模型往往很快忘记最近的对话,经常导致与主题无关或有问题的回答。另一方面,具有大上下文的模型可以更好地理解叙述流程,从而提供上下文更丰富、相关性更高的输出。

虽然以前有过尝试和实验使用具有异常大上下文窗口的模型,但谷歌是第一个商业化提供具备这种能力的模型的公司。此前,Anthropic的上下文窗口最大为20万个标记,但谷歌超越了这一限制,达到了Gemini 1.5 Pro。

🌙 100万标记 – 您可以实现什么? 🌙

Gemini 1.5 Pro最大的上下文窗口尺寸为100万个标记。虽然公开版本的上下文窗口大小为12.8万个标记,与OpenAI的GPT-4 Turbo相同。这个扩展的上下文窗口打开了一片全新的可能性。您现在可以分析整个代码库、对合同等长篇文档进行推理、与聊天机器人进行长时间的对话,甚至分析和比较视频内容。

在最近的一次简报会上,谷歌展示了两个预先录制的演示,展示了启用了100万个标记上下文窗口的Gemini 1.5 Pro的作用。第一个演示涉及搜索Apollo 11登月电视转播的文字记录,该转播涵盖大约402页,寻找包含笑话的引用。然后,该模型被要求根据描述和素描来查找转播中类似铅笔素描的场景。在第二个演示中,模型被要求根据描述和素描来识别Buster Keaton的电影《Sherlock Jr.》中的场景。

Gemini 1.5 Pro成功完成了这两个任务,尽管处理时间相对于使用ChatGPT进行平均查询要长。每个任务的处理时间为20秒到1分钟不等。Oriol Vinyals保证随着模型进一步优化,延迟时间将得到改善。事实上,已经在测试Gemini 1.5 Pro的一个具有惊人的1000万个标记上下文窗口的版本。

💡 担忧与考虑 💡

尽管Gemini 1.5 Pro的能力令人印象深刻,但人们对其延迟性的担忧仍然存在。等待数分钟对视频内容进行搜索可能不是最愉快或可扩展的体验。此外,延迟对于与聊天机器人的对话和代码库分析的影响引发了一些合理的问题。在简报会上,Vinyals承认这些问题在任何模型的实验和研究阶段都是存在的。改善这一领域的能力无疑至关重要。

考虑到 Gemini 1.5 Pro 的大环境窗口带来的好处超过了缺点的具体使用案例非常重要。对于分析剧情要点的任务来说,延迟可能无法被证明是合理的。然而,当需要找到一张模糊记忆的电影场景特定截图时,节省的时间可能会使等待变得值得。

其他显著改进

Gemini 1.5 Pro 提供的不仅仅是扩展的上下文窗口。谷歌声称,从质量上来看,该模型与旗舰 GenAI 模型 Gemini Ultra“可比”。这得益于一个由较小、专门的“专家”模型组成的新架构。Gemini 1.5 Pro 将任务分解为子任务,并根据预测将它们委派给适当的专家模型。

尽管这个被称为专家混合(MoE)的概念已经存在一段时间了,但其效率和灵活性使其越来越受欢迎。这种方法可以更好地分配资源,并提高模型输出的整体质量。

🎟️ 定价和未来发展 🎟️

围绕 Gemini 1.5 Pro 的一个主要问题是定价。在私人预览阶段,具有100万令牌上下文窗口的版本将免费使用。然而,谷歌计划在不久的将来推出定价层级,从标准的128,000上下文窗口开始,逐步扩大到100万令牌。尽管在简报中没有透露具体的定价细节,但预计更大的上下文窗口将付出更高的成本。希望谷歌能解决这个问题,并提供经济实惠的定价选择。

另一个值得考虑的方面是对 Gemini 家族中其他模型的影响,特别是 Gemini Ultra。Ultra 模型是否会获得与 Pro 模型性能改进相一致的升级?目前,可用的 Pro 模型似乎比 Google 将其推广为顶级产品的 Ultra 模型表现更好。对于这个问题的澄清将不胜感激。

⭐ GenAI 模型的未来 ⭐

谷歌发布的 Gemini 1.5 Pro 展示了 GenAI 模型不断演进和进步的持续性。随着具有更大上下文窗口的模型变得更普遍,我们可以期待在各个领域出现更多令人兴奋的应用和机会。处理海量数据并进行复杂交互的能力无疑将塑造人工智能的未来。

为了进一步探索这个话题并及时了解计算机技术和编程领域的最新进展,请查看以下有价值的链接:

  1. Google 的 Gemini – 新的生成 AI 平台
  2. OpenAI 的 GPT-4 – 下一个大事件
  3. 释放 ChatGPT 的潜力
  4. 顶点 AI 的威力
  5. 革命性的语言模型 – Magic 的方法
  6. 扩展模型上下文窗口尺寸的技术
  7. Anthropic – 推动模型上下文窗口的界限

现在轮到你了!你对 Google 的 Gemini 1.5 Pro 及其更大的上下文窗口功能有什么想法?你如何预见这一发展将影响不同的行业?分享你的见解并加入对话。别忘了通过在你最喜欢的社交媒体平台上分享本文来传播这个消息!

✨💻🚀😄