• Latest
  • Trending

高效大规模创新3D重建模型iLRM

2025-09-01
估值超1800亿美元!大模型平台Anthropic完成130亿美元融资

估值超1800亿美元!大模型平台Anthropic完成130亿美元融资

2025-09-03

2025-09-02
马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练

OpenAI刚刚发布GPT-Realtime,AI Agent进入超逼真对话时代

2025-08-29
专治智能体盲跑!微软发布AI Agent 5大可观测性,打通任督二脉

专治智能体盲跑!微软发布AI Agent 5大可观测性,打通任督二脉

2025-08-28
当AI成为预言家:大数据时代,我们正在失去理解世界的能力吗?

当AI成为预言家:大数据时代,我们正在失去理解世界的能力吗?

2025-08-26
马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练

马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练

2025-08-25
AI Agent接管谷歌搜索!预订餐厅、定制搜索结果,一键搞定所有事

AI Agent接管谷歌搜索!预订餐厅、定制搜索结果,一键搞定所有事

2025-08-22

OpenAI单月收入突破10亿美元!算力严重不足,急需“星际之门”

2025-08-21
宣战马斯克!OpenAI进军脑机接口,Altman圆8年前梦想

突发!DeepSeek刚刚开源V3.1-Base

2025-08-20

Sam Altman:美国严重低估中国AI实力,OpenAI开源因为DeepSeek

2025-08-19
超58000星!精选AI Agent、MCP开源大合集,Github每日第一

超58000星!精选AI Agent、MCP开源大合集,Github每日第一

2025-08-19
微软发布5大AI Agent模式:一键解锁AI员工,打造智能体工厂

微软发布5大AI Agent模式:一键解锁AI员工,打造智能体工厂

2025-08-14
Retail
星期四, 9月 4, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

高效大规模创新3D重建模型iLRM

数字金融网 by 数字金融网
2025-09-01
in 其它分类
A A
0

基于前馈网络的3D建模方法因其快速且高质量的重建能力而备受关注。尤其是直接生成显式3D表示的方法,因其快速渲染能力和广泛的应用前景而受到青睐。但多数现有的基于Transformer架构的模型在处理多视图输入时面临严重的可扩展性问题。

这些方法依赖于对所有输入视图的图像token进行全注意力计算,随着视图数量或图像分辨率的增加,计算成本呈二次方增长。所以,成均馆大学、延世大学的研究人员提出了创新3D重建模型iLRM来解决难题。

iLRM通过迭代细化机制生成3D高斯表示,并严格遵循三大核心原则:解耦场景表示与输入图像,从而实现紧凑的三维表示;将全注意力多视图交互分解为两阶段注意力方案,以减少计算成本;在每一层注入高分辨率信息,以实现高保真重建。

推荐可能喜欢的

估值超1800亿美元!大模型平台Anthropic完成130亿美元融资

估值超1800亿美元!大模型平台Anthropic完成130亿美元融资

2025-09-03

2025-09-02

在架构设计的起始阶段,iLRM采用了视点标记化模块,其作用是将输入视图的相机姿态信息转化为模型可以处理的格式。研究人员利用Plücker射线嵌入来表示每个输入视图的几何信息。

Plücker坐标作为一种数学工具,能够有效捕捉像素和视图空间的变化,从而区分不同视图中的像素块。通过将每个视图的Plücker射线嵌入划分为非重叠的块,并将其重塑为一维向量,研究人员能够生成一个紧凑的视点标记集合。这些视点标记随后通过一个线性层进行编码,为后续的三维重建过程提供了一个高效的初始表示。

在处理输入图像时,iLRM进一步采用了多视图图像标记化。该模块的作用是将输入图像中的视觉信息提取出来,并将其与视点标记进行融合。对于每个输入视图图像,研究人员首先将其划分为非重叠的块,然后分别提取RGB图像块和Plücker射线块。这两个块被拼接在一起,并通过一个线性层进行投影,从而生成图像标记。

这些图像标记不仅包含了输入图像的视觉信息,还融合了相机姿态信息,为三维重建提供了丰富的上下文线索。这种设计使得模型能够在处理多视图输入时,充分利用每个视图的视觉信息,从而提高重建的准确性和细节表现。

在多视图上下文建模方面,iLRM提出了一种高效的两阶段注意力机制,以应对传统三维重建方法中常见的计算复杂度问题。传统的三维重建方法通常依赖于全注意力机制来处理多视图输入,但这种方法会导致计算复杂度随着视图数量和图像分辨率的增加而呈二次方增长。

为了解决这一问题,iLRM将多视图交互分解为两个阶段:交叉注意力和自注意力。在交叉注意力阶段,每个视点标记与其对应的图像标记进行交互,这种一对一的交互方式计算效率非常高。而在自注意力阶段,所有视点标记之间进行全局信息交互,从而捕捉到不同视图之间的依赖关系。这种两阶段设计不仅降低了计算复杂度,还保留了全局信息交互的能力,使得模型能够在处理大规模输入视图时保持高效的性能。

iLRM的核心是其更新块,这是一个迭代细化机制,用于逐步优化三维场景表示。更新块由多个Transformer模块组成,每个模块包含一个交叉注意力层和一个自注意力层。在交叉注意力层中,视点标记通过与图像标记的交互进行更新,从而引入视觉信息。在自注意力层中,视点标记之间进行全局信息交互,进一步优化其表示。

为了更好地捕捉视点标记和图像标记之间的空间对应关系,iLRM引入了一种标记提升策略。由于视点标记的分辨率通常低于图像标记,这种分辨率差异可能会限制模型对细节信息的捕捉能力。标记提升模块通过一个线性查询层将低分辨率的视点标记提升到更高的分辨率,从而生成更细粒度的查询标记。

这些提升后的标记与高分辨率的图像标记进行交叉注意力计算,从而更好地捕捉视觉对应关系。在交叉注意力计算完成后,提升后的标记被重新映射回原始分辨率,并通过一个线性投影层恢复到原始的嵌入维度。这种设计不仅保留了更新后的信息,还保持了后续自注意力层的计算效率。

在处理大规模输入视图时,交叉注意力的计算成本可能会成为瓶颈。为了解决这一问题,iLRM提出了一种小批量交叉注意力机制。该机制通过选择性地采样图像标记和视点标记,显著降低了交叉注意力的计算复杂度。研究人员设计了几种结构化的采样策略,这些策略在保持计算效率的同时,还能够有效地捕捉视图之间的视觉信息。

在训练阶段,iLRM通过最小化重建图像与真实图像之间的均方误差和感知损失来优化模型参数。感知损失使用预训练的VGG网络计算,以确保生成的图像在视觉上与真实图像相似。这种训练目标不仅关注重建图像的像素级准确性,还考虑了图像的视觉质量,从而使得模型能够生成高质量的三维场景表示。

在经过多层迭代更新后,iLRM将最终的视点标记解码为三维高斯参数。这一过程通过一个线性层完成,并应用后激活函数来生成高斯分布的均值、协方差、颜色和不透明度等参数。这些参数随后被用于渲染目标视图的图像,从而实现高质量的三维重建。

数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • 估值超1800亿美元!大模型平台Anthropic完成130亿美元融资
  • (无标题)
  • 高效大规模创新3D重建模型iLRM
  • OpenAI刚刚发布GPT-Realtime,AI Agent进入超逼真对话时代
  • 专治智能体盲跑!微软发布AI Agent 5大可观测性,打通任督二脉
  • 当AI成为预言家:大数据时代,我们正在失去理解世界的能力吗?
  • 马斯克开源新模型:能实时抓取社交平台数据,20万块H100训练
  • AI Agent接管谷歌搜索!预订餐厅、定制搜索结果,一键搞定所有事

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号