当前位置: 网站首页 技术文章 正文

Google 发布 Gemini 1.5 Pro,支持原生音频理解

来源:互联网 发布时间:2024-05-19 12:33:50
Google 发布 Gemini 1.5 Pro,支持原生音频理解

创建或访问您的API密钥,开始构建。音频和视频模态的新用例:Gemini 1.5 Pro扩展了输入模态,包括在Gemini API和Google AI Studio中的音频(语音)理解。此外,Gemini 1.5 Pro现在能够对上传到Google AI Studio的视频进行图像(帧)和音频(语音)的跨模态推理,API支持即将推出。系统指令:在Google AI Studio和Gemini API中,通过系统指令指导模型的响应。定义角色、格式、目标和规则,以引导模型针对您的特定用例行为。JSON模式:指示模型仅输出JSON对象,此模式支持从文本或图像中提取结构化数据。您可以使用cURL开始,Python SDK支持即将到来。功能调用的改进:现在可以选择模式来限制模型的输出,提高可靠性。选择文本、功能调用或仅函数本身。

相关教程