• Latest
  • Trending
专用于理解游戏场景的开源大模型-VideoGameBunny

专用于理解游戏场景的开源大模型-VideoGameBunny

2024-09-03

本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题

2025-06-17
火山引擎发布豆包大模型1.6,加速Agent大规模应用

火山引擎发布豆包大模型1.6,加速Agent大规模应用

2025-06-11

Meta正与Scale AI洽谈100亿美元投资

2025-06-09

微软大咖技术分享+动手实践工作坊 | 从技术到商业,MCP协议如何驱动AI新范式?

2025-06-06
80亿美元押注Agent!全球第一CRM收购Informatica

80亿美元押注Agent!全球第一CRM收购Informatica

2025-05-28

OpenAI放大招!核心API支持MCP,一夜改变智能体开发

2025-05-22

社区最新LLM大语言模型学习资料来啦!教材级参考 + 学习标准 + 概念精解

2025-05-19

AI 线下实战公开课(广州场)来啦!2.5小时 解锁 AI 大模型 MCP 开发核心技能

2025-05-13
解密NVIDIA团队的代理式AI技术实践

解密NVIDIA团队的代理式AI技术实践

2025-05-12
微软AI Genius训练营来啦!6场“理论+实战”课程,彻底点燃你的AI超能力

微软AI Genius训练营来啦!6场“理论+实战”课程,彻底点燃你的AI超能力

2025-06-10

突发!特朗普准备取消AI芯片出口限制

2025-05-08

微软将大量AI功能、智能体集成在Windows11,全民AI时代来了

2025-05-07
Retail
星期四, 6月 19, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

专用于理解游戏场景的开源大模型-VideoGameBunny

数字金融网 by 数字金融网
2024-09-03
in 其它分类
A A
0
专用于理解游戏场景的开源大模型-VideoGameBunny

大模型在游戏开发领域扮演了重要角色,从AI机器人生成到场景搭建覆盖各个领域。但在游戏场景理解、图像识别、内容描述方面很差。

为了解决这些难题,加拿大阿尔伯塔的研究人员专门开源了一款针对游戏领域的大模型VideoGameBunny(以下简称“VGB”)。

VGB可以作为视觉AI助理,能够理解游戏环境并提供实时反馈。例如,在探索型的3A游戏中,可以帮助玩家识别关键物品或进行问答,帮助玩家能够更快地掌握游戏技巧,从而增强游戏的互动性和沉浸感。

VGB也可以通过分析大量的游戏图像数据,够检测到图形渲染的错误、物理引擎的不一致性等,帮助开发人员快速识别和修复游戏中的bug和异常。

推荐可能喜欢的

本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题

2025-06-17
火山引擎发布豆包大模型1.6,加速Agent大规模应用

火山引擎发布豆包大模型1.6,加速Agent大规模应用

2025-06-11

开源地址:https://huggingface.co/VideoGameBunny/VideoGameBunny-V1/tree/main

VGB是基于Bunny模型(高性能低消耗版本)基础之上开发而成,这个模型的设计方法类似于LLaVA,采用多层感知器网络作为投影层,将来自强预训练视觉模型的视觉嵌入转化为图像标记,供语言模型处理,可有效利用了预训练的视觉和语言模型使它们能够高效地协同处理数据。

Bunny模型支持最高1152×1152像素的图像分辨率,这在处理视频游戏图像时非常重要,因为游戏画面通常包含从UI图标到大型物体等不同尺寸的视觉元素。多尺度特征的提取有助于模型捕捉这些元素,从而提高对游戏内容的理解能力。

为了使VGB能够更好地理解和处理游戏的视觉内容,研究人员使用了Meta开源的LLama-3-8B作为语言模型,并结合了SigLIP视觉编码器以及S2包装器。这种多尺度特征提取方法能够捕捉游戏中不同尺度的视觉元素,从微小的用户界面图标到大型游戏对象,从而为模型提供了丰富的上下文信息。

此外,为了生成和游戏图像相匹配的指令数据,研究人员使用了多种先进的模型,包括Gemini-1.0-Pro-Vision、GPT-4V、GPT-4o等,以生成不同类型的指令。这些指令包括简短的标题、详细的标题、图像到JSON的描述以及基于图像的问答等,可以帮助模型更好地理解和响应玩家的查询和命令。

在模型训练方面,VGB使用了比较流行的LoRA参数高效微调方法,允许模型在保持预训练权重的同时,对特定任务进行微调,从而在不显著增加计算成本的情况下提高模型的性能。此外,研究团队还使用了PEFT库来指导模型的训练过程,进一步提升了训练的高效性和稳定性。

训练数据方面,研究人员收集了来自413款不同游戏的超过185,000多张图像以及将近39万个图像-指令对,涵盖了图像说明、问答对以及136,974张图像的JSON表示。

JSON格式的数据包含了16个元素,能够捕捉图像的多层次细节信息,包括整体概述、具体的人物描述、天气信息、用户界面和玩家库存的摘要、场景中的物体、照明和环境效果等。

为了创建图像到JSON的数据集,研究团队使用Gemini-1.5-Pro结合特定的指示,将给定的图像转换成一个具有层次结构细节和信息的JSON文件。

研究人员认为,全球游戏市场总额超过3000亿美元,在游戏开发、性能测试、提升游戏体验等方面对大模型有着巨大需求,VGB是可以辅助开发人员以及玩家达到这些目的。

本文素材来源VGB论文,如有侵权请联系删除

数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • 本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题
  • 火山引擎发布豆包大模型1.6,加速Agent大规模应用
  • Meta正与Scale AI洽谈100亿美元投资
  • 微软大咖技术分享+动手实践工作坊 | 从技术到商业,MCP协议如何驱动AI新范式?
  • 80亿美元押注Agent!全球第一CRM收购Informatica
  • OpenAI放大招!核心API支持MCP,一夜改变智能体开发
  • 社区最新LLM大语言模型学习资料来啦!教材级参考 + 学习标准 + 概念精解
  • AI 线下实战公开课(广州场)来啦!2.5小时 解锁 AI 大模型 MCP 开发核心技能

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号