什么是Gemini？关于谷歌新的AI模型，你应该了解的一切

关于Gemini：谷歌最新的AI模型，你必须知道的全部

Gemini是谷歌推出的一款新的、强大的人工智能模型，不仅可以理解文本，还可以理解图像、视频和音频。作为一种多模态模型，Gemini可以完成数学、物理和其他领域的复杂任务，并可以理解和生成各种编程语言的高质量代码。

目前，Gemini通过与谷歌的Bard和谷歌Pixel 8的集成提供，而且将逐步整合到其他谷歌服务中。

同时：ChatGPT vs Bing Chat vs Google Bard：哪个是最好的AI聊天机器人？

“Gemini是谷歌各团队之间大规模合作的结果，其中包括我们在谷歌研究部门的同事，” 谷歌DeepMind的首席执行官兼创始人Dennis Hassabis说道。“从根本上构建Gemini使其成为一种多模态模型，这意味着它可以广泛理解、操作并结合文本、代码、音频、图像和视频等不同类型的信息。”

Gemini是由谷歌和谷歌母公司Alphabet创建的，并作为公司迄今为止最先进的AI模型发布。谷歌DeepMind也为Gemini的开发做出了重要贡献。

同时：Bing的新深度搜索使用GPT-4以提供更全面的搜索结果

谷歌将Gemini描述为一种灵活的模型，可以在谷歌的数据中心和移动设备上运行。为了实现这种可扩展性，Gemini分为三个尺寸：Gemini Nano、Gemini Pro和Gemini Ultra。

Gemini Nano：Gemini Nano模型专为智能手机设计，特别是谷歌Pixel 8。它旨在执行设备上的任务，这些任务需要高效的AI处理，无需连接到外部服务器，例如在聊天应用程序中提供回复建议或对文本进行总结。
Gemini Pro：Gemini Pro在谷歌的数据中心上运行，专为公司最新版本的AI聊天机器人Bard提供支持。它能够快速响应并理解复杂的查询。
Gemini Ultra：虽然目前还未广泛使用，但谷歌将Gemini Ultra描述为其最强大的模型，超过了“在用于大型语言模型（LLM）研究和开发中广泛使用的32个通用学术基准中的30个最新成果。”它专为高度复杂的任务而设计，并在完成当前测试阶段后发布。

现在可以在谷歌的产品中以Nano和Pro版本使用Gemini，比如Pixel 8手机和Bard聊天机器人。谷歌计划逐步将Gemini整合到搜索、广告、Chrome和其他服务中。

同时：我要求DALL-E 3为每个美国州创建肖像，结果奇妙之极

开发人员和企业客户将能够通过Google的AI Studio和Google Cloud Vertex AI中的Gemini API访问Gemini Pro，从12月13日起提供。Android开发人员将通过AICore获得Gemini Nano的访问权限，这将在提前预览的基础上提供。

Google的新模型Gemini似乎是迄今为止最大、最先进的AI模型之一，尽管Ultra模型的发布将明确其准确性。与当前驱动AI聊天机器人的其他流行模型相比，Gemini因其本地多模态特性而脱颖而出，而其他模型（如GPT-4）则依靠插件和集成才能真正实现多模态。

Google的比较图显示了Gemini Ultra和Pro与OpenAI的GPT-4和Whisper的比较。

与以文本为主的GPT-4相比，Gemini可以轻松地本地执行多模态任务。虽然GPT-4在本地的语言相关任务（如内容创建和复杂文本分析）方面表现出色，但它需要依靠OpenAI的插件来执行图像分析和访问网页，同时也依赖于DALL-E 3和Whisper来生成图像和处理音频。

Google的Gemini似乎也比现有的其他模型更加注重产品。它要么集成到公司的生态系统中，要么计划集成，因为它为Bard和Pixel 8设备提供动力。而其他模型如GPT-4和Meta的Llama更加以服务为导向，可用于各种第三方开发人员的应用、工具和服务。