• Latest
  • Trending
谷歌重磅发布Gemini 1.5 Pro:能自动写影评,理解视频!

谷歌重磅发布Gemini 1.5 Pro:能自动写影评,理解视频!

2024-04-10
AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!

AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!

2025-06-20

本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题

2025-06-17
火山引擎发布豆包大模型1.6,加速Agent大规模应用

火山引擎发布豆包大模型1.6,加速Agent大规模应用

2025-06-11

Meta正与Scale AI洽谈100亿美元投资

2025-06-09

微软大咖技术分享+动手实践工作坊 | 从技术到商业,MCP协议如何驱动AI新范式?

2025-06-06
80亿美元押注Agent!全球第一CRM收购Informatica

80亿美元押注Agent!全球第一CRM收购Informatica

2025-05-28

OpenAI放大招!核心API支持MCP,一夜改变智能体开发

2025-05-22

社区最新LLM大语言模型学习资料来啦!教材级参考 + 学习标准 + 概念精解

2025-05-19

AI 线下实战公开课(广州场)来啦!2.5小时 解锁 AI 大模型 MCP 开发核心技能

2025-05-13
解密NVIDIA团队的代理式AI技术实践

解密NVIDIA团队的代理式AI技术实践

2025-05-12
微软AI Genius训练营来啦!6场“理论+实战”课程,彻底点燃你的AI超能力

微软AI Genius训练营来啦!6场“理论+实战”课程,彻底点燃你的AI超能力

2025-06-10

突发!特朗普准备取消AI芯片出口限制

2025-05-08
Retail
星期六, 6月 21, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

谷歌重磅发布Gemini 1.5 Pro:能自动写影评,理解视频!

谷歌重磅发布Gemini 1.5 Pro:能自动写影评,理解视频!

数字金融网 by 数字金融网
2024-04-10
in 其它分类
A A
0
谷歌重磅发布Gemini 1.5 Pro:能自动写影评,理解视频!

4月10日凌晨,谷歌在官网正式发布了Gemini 1.5 Pro,现在可在180多个国家/地区使用。

除了能生成创意文本、代码之外,Gemini 1.5 Pro最大的特色是能根据用户输入的文本提示,理解、总结上传的视频、音频内容进行深度总结,并且支持100万tokens上下文。

目前,可以在Google AI Studio开发平台中免费试用Gemini 1.5 Pro,支持中文进行提示。

推荐可能喜欢的

AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!

AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!

2025-06-20

本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题

2025-06-17

此外,谷歌还对Gemini API进行了性能优化,包括系统指令、JSON模式以及函数调用优化,可显著提升模型的稳定性和输出能力。

视频理解展示

「AIGC开放社区」通过Google AI Studio开发平台第一时间体验了一下最新的Gemini 1.5 Pro的多模态理解能力。使用方法非常简单便捷,以下是教程示例。

1)登录https://aistudio.google.com/app/prompts/new_chat然后选择模型Gemini 1.5 Pro,以及上方的Video功能。

2)点击Video后,选择Upload上传视频。

3)由于模型对上传视频的解析速度过慢,所以,这里直接使用了谷歌内置的视频示例。需要注意的是,上传视频不要超过100万tokens。

4)我们使用内置视频示例,然后用中文提问:“介绍一下这部影片讲述了哪些内容。”

5)Gemini 1.5 Pro正在解析,通常只需要几十秒就能完成。

结果已经出来了,这是一部由BusterKeaton 于 1924 年主演并导演的电影《福尔摩斯二世》。

6)我们继续发问,“你能用这个视频写一段600字的影评吗?”大概几十秒后,Gemini 1.5 Pro便生成了影评。

虽然生成的内容无法与顶级影评人的作品媲美。但整体的文章架构、叙述方法以及词汇的准确度是超过很多小白、中级影评人的水平。只需要在这个基础之上进行稍加修改,就是一篇不错的内容。

值得一提的是,用户可以一次性上传多个视频一起解读,这对于视频媒体行业来说很有帮助,可以快速理解长视频内容节省时间。

音频理解展示

我们再试试音频,基本操作与视频差不多。这里我们上传一份英文阅读ESL Podcast的课程。

然后上传MP3格式文件

2)音频比视频解析快了很多很多,这里我们上传的音频有大约12万tokens。

3)开始发问,“总结一下这个音频的内容。”

4)Gemini 1.5 Pro已经精准解读出来了,这个音频是 ESL Podcast 系列课程“Jeff 的一天”的第一课,旨在帮助学习者掌握日常英语词汇。

比较意外的是,Gemini 1.5 Pro还把整个可成的结构、故事内容和学习目标全部都解读了出来,看来Gemini 1.5 Pro还是更懂英文数据内容。

Gemini 1.5 Pro的音频理解,同样支持多个文件一起解读。

Gemini API改进

为了帮助开发人员更好地控制Gemini模型,谷歌对API进行了三个优化。

系统指令:目前可以在Google AI Studio 和 Gemini API 中使用系统指令功能,可指导模型的响应输出。能让用户根据其特定需求和用例控制模型的行为。

在设置系统指令时,用户需要为模型提供额外的上下文来了解任务、提供自定义程度更高的响应,并在用户与模型的整个互动过程中遵循特定准则。

而开发者通过系统指令能定义角色、格式、目标和规则,以引导模型在特定用例中的各种行为。

JSON模式:现在Gemini API 提供了一个配置参数,用于请求 JSON 格式的响应。可以帮助开发者从文本或图像中提取结构化数据。

函数调用优化:开发者可以使用自定义函数并将其提供给AI模型,但模型不会直接调用这些函数,而是生成指定函数名称和建议的参数的结构化数据输出。

该输出支持调用外部 API,然后生成的 API 输出可以重新合并到模型中,从而帮助开发者实现更全面的查询响应。

目前,Gemini 1.5 Pro已经全面开放使用了,有兴趣的小伙伴赶紧去试试吧。

本文素材来源谷歌官网,如有侵权请联系删除

数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!
  • 本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题
  • 火山引擎发布豆包大模型1.6,加速Agent大规模应用
  • Meta正与Scale AI洽谈100亿美元投资
  • 微软大咖技术分享+动手实践工作坊 | 从技术到商业,MCP协议如何驱动AI新范式?
  • 80亿美元押注Agent!全球第一CRM收购Informatica
  • OpenAI放大招!核心API支持MCP,一夜改变智能体开发
  • 社区最新LLM大语言模型学习资料来啦!教材级参考 + 学习标准 + 概念精解

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号