谷歌的 Gemini AI 现在可以收听音频文件来帮助你

就在推出旨在与 OpenAI 的 ChatGPT 竞争的新旗舰 AI 模型 Gemini 几周后,谷歌已经通过音频理解功能增强了该技术。

据 Android Headlines 报道,Gemini 的最新版本 1.5 Pro 现在可以摄取、处理和理解文本和图像之外的音频数据。这个重要的里程碑让双子座能够直接从原始音频源转录、总结和分析音频文件,例如播客、讲座、财报电话会议等。

在当今的环境中,大多数人工智能转录和摘要工具都依赖于在分析内容之前将音频转换为文本。但是双子座1.5 Pro通过更深入地理解音频来消除这个中间步骤,这可以提高响应准确性。

另请阅读—— Gemini:继消息之后,谷歌的人工智能从该公司进入了这个应用程序

双子座可以理解你的声音或其他音频文件

增强的音频功能显着扩展了 Gemini 在一系列专业和创意用例中的实用性。想象一下能够上传三小时公司会议的录音并在几秒钟内接收它由人工智能生成的关于要点和要采取的行动的简明摘要。

播客和音频创作者可以使用 Gemini 进行主题分析、演出准备笔记,甚至人工智能洞察辅助的音频内容创建。当音频与双子座的曲目中的文本和图像相结合时,可能性几乎是无限的。这是谷歌路线图的关键部分,旨在使其旗舰人工智能模型成为能够处理任何类型数据的真正的多模式助手。除了,谷歌最近与一家广告巨头合作,所以这个新功能很可能帮助它创建新的广告。

谷歌一开始似乎采取了谨慎和可控的态度。目前,Gemini 的新音频技能只能通过 Vertex AI 开发平台获得来自 Google 及其 AI Studio 工具,而不是通过向消费者提供的服务。这是一个谨慎的步骤,谷歌将能够在向所有人发布之前严格验证 Gemini 音频功能的质量和稳健性。