随着谷歌最近将其人工智能模型从 Bard 更名为 Gemini,并宣布了多个模型,事情变得有点混乱。现在,又出现了一种新型号。谷歌发布了新的Gemini 1.5 Pro型号。主要谜团之一是较新的 Gemini Pro 1.5 型号与较旧的 Gemini 1.0 型号有何不同。
在这里,我们将看看两者之间的差异以及升级后的人工智能模型可以做的事情。
什么是双子座 1.5 Pro
Gemini 1.5 是 Google 大语言模型 Gemini 系列中的下一代模型,与现有 1.0 模型相比有了显着改进。
如果您还没有使用过 Gemini Basic,它与其他人工智能模型非常相似。它运行在 Gemini 1.0 Pro 机型上,你可以在搜索栏中输入提示,让 AI 查找信息、生成内容或创建图像。

谁可以访问它?虽然 Gemini 1.0 目前可通过网络应用程序在多个地区和多种语言中免费使用,但较新的 1.5 Pro 型号目前尚未向公众开放。目前只有商业用户和开发人员可以使用 Vertex AI 和 AI Studio 进行尝试。
目前可供测试的模型是免费的,并且具有最多一百万个代币的上下文窗口,但一旦发布,它就不会是免费的。虽然它在预览版中免费提供,但您应该预计该模型会出现一些延迟。
而且,谷歌最初计划在向所有人发布时发布带有 128,000 个代币上下文窗口的 Gemini 1.5 Pro。它可能会推出不同的定价等级,基本 128,000 个代币模型免费,而 100 万个代币模型则有价格提供,但该公司尚未发布公告。
双子座 1.0 VS.双子座1.5专业版
现在让我们看看Gemini 1.5 Pro较之前版本有哪些重大升级的功能。
更大的上下文窗口
像 Gemini 这样的 AI 模型使用上下文窗口,它由 token 组成,包括文本、图像、视频、音频、代码等部分。更大的上下文窗口允许 AI 模型收集和处理更多信息。
虽然 Gemini 1.0 的上下文窗口仅限于 32,000 个令牌,但较新的 1.5 模型的上下文窗口有 100 万个令牌。 (Google 在研究过程中甚至成功测试了 1000 万个代币;这太令人兴奋了!)
不过,这是针对 Gemini Pro 1.5 型号的付费版本。免费版Pro模型的上下文窗口限制为128,000个令牌,这仍然比Gemini 1.0要多得多。
凭借更大的上下文窗口,Gemini Pro 1.5 可以处理 30,000 行代码、700,000 个单词、11 小时的音频、1 小时的视频和长文本文档。这使得该 AI 模型比 OpenAI 为 ChatGPT 提供支持的 GPT-4 模型更强大。

更快的响应时间
Gemini 1.5 Pro 依赖于最新的 Transformer 和 Mixture-of-Experts (MoE) 架构,这使其能够更快地提供响应。虽然普通 Transformer 充当单个神经网络,但 MoE 使用此类网络组来提高效率。
当使用 MoE 架构向人工智能模型提供输入时,它们只会激活相关路径,从而防止资源浪费。要完成的任务也被划分在不同的神经模型之间,确保更快地输出更好的质量。
因此,借助 Gemini Pro 1.5,您可以更快地找到答案或生成图像和基于文本的内容,从而提高效率和生产力。
卓越的编码能力
如果您依靠 Gemini 进行编码,Gemini Pro 1.5 是理想的 AI 模型。它可以帮助您快速编写可靠的代码,这主要是由于更大的上下文窗口允许模型处理更大量的数据。
Gemini 1.5 Pro 增强的解决问题能力使其能够比之前的型号处理更大的代码块。除了帮助您编写更好的代码之外,它还可以解释代码不同部分的工作原理并建议有用的修改。这使其成为开发人员的绝佳选择。
增强学习和推理能力
Gemini 1.5 Pro 更擅长保留信息,并且可以非常有效地在各种多模式环境中进行推理。它极其擅长解读大量信息。因此,您可以使用此 AI 模型轻松识别和定位视频、音频和长文本文档中的信息。
它还可以学习新语言,并且可以更轻松地处理多种语言,而无需提供大量有关它们的信息。此外,由于它可以找到此类信息,甚至可以从庞大的数据集中召回这些信息,因此该模型可以在推理任务中获得出色的结果。
增强的推理和回忆能力使 Gemini 1.5 Pro 适用于多种用途,例如学术研究、内容创建和代码分析。
改进音频和视觉任务的处理
如上所述,Gemini 1.5 Pro 可以比旧型号更好地解读图像和视频中的信息。它可用于有效地将图像与文本数据集成,同时理解图像中不同元素的上下文。
此功能使其成为以最少的努力从视觉数据生成基于文本的信息的良好选择。凭借最新的图像分析和解释功能,该人工智能模型可以对对象进行识别和分类,了解它们的关系,并从静态图像中提取信息。
同样,较新的人工智能模型的视频分析能力更加先进,可以识别视频中的模式、预测结果并跟踪变化。 Gemini 1.5 Pro可以在一定程度上理解事件、动作,甚至情绪。因此,它可以用于比 Gemini 1.0 更准确地进行视频分析。
在音频增强方面,Gemini 1.5 Pro 版本可以理解和转录语音,错误率远低于其他型号。因此,即使是长音频片段,准确度仍然很高,并且在保留上下文和含义的同时将一种语言翻译成另一种语言也更加容易。
Gemini 1.5 Pro 能做什么?
Gemini 1.5 Pro 将让您完成许多旧版 AI 模型无法完成的事情。以下是您可以使用 Gemini 1.5 Pro 执行的操作的一些示例;开发人员和企业可以立即尝试这些:
- 您不仅可以阅读和理解短文,还可以使用 Gemini 1.5 Pro 阅读整本书和长篇文本内容。由于它可以轻松处理大量基于文本的内容和复杂的文档,您甚至可以要求它分析不同的部分并回答相关问题。
- 观看完整的电影并获得每个场景的详细分析。此前,只能使用 Gemini 1.0 来处理短片。例如,您可以要求 AI 模型为您提供角色的动机、象征意义等信息。
- 聆听长段音频并从中收集信息。 Gemini 1.0 只允许您从简短的音频片段中做简洁的笔记。相比之下,你可以使用更新后的人工智能模型来听长篇讲座,总结复杂的想法,甚至提供详细的成绩单。
- 凭借更好的回忆能力,您可以要求双子座回答有关对话中之前讨论过的主题的问题。当查找多个主题的信息时,此功能会非常方便。
- 利用从不同来源获得的信息,人工智能模型甚至可以用来生成脚本或诗歌等创意内容。创意领域可以从 Gemini 1.5 Pro 的增强功能中受益匪浅。
- 新的 Pro AI 模型可以帮助您通过理解整个程序(而不是仅仅几行代码)来编写正确的代码。您还可以向它寻求建议、使用它来识别错误并生成代码片段。
Gemini 1.5 Pro 比之前的版本进行了多项改进,使其成为几乎每个人的绝佳工具。现在,谷歌的人工智能可以直接与基于 GPT-4 的 ChatGPT 竞争,一旦谷歌更广泛地发布它,它必将在日常使用中变得更加流行。






