• Latest
  • Trending
阿里国际发布最新版多模态大模型Ovis,拿下开源第一

阿里国际发布最新版多模态大模型Ovis,拿下开源第一

2024-09-20

本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题

2025-06-17
火山引擎发布豆包大模型1.6,加速Agent大规模应用

火山引擎发布豆包大模型1.6,加速Agent大规模应用

2025-06-11

Meta正与Scale AI洽谈100亿美元投资

2025-06-09

微软大咖技术分享+动手实践工作坊 | 从技术到商业,MCP协议如何驱动AI新范式?

2025-06-06
80亿美元押注Agent!全球第一CRM收购Informatica

80亿美元押注Agent!全球第一CRM收购Informatica

2025-05-28

OpenAI放大招!核心API支持MCP,一夜改变智能体开发

2025-05-22

社区最新LLM大语言模型学习资料来啦!教材级参考 + 学习标准 + 概念精解

2025-05-19

AI 线下实战公开课(广州场)来啦!2.5小时 解锁 AI 大模型 MCP 开发核心技能

2025-05-13
解密NVIDIA团队的代理式AI技术实践

解密NVIDIA团队的代理式AI技术实践

2025-05-12
微软AI Genius训练营来啦!6场“理论+实战”课程,彻底点燃你的AI超能力

微软AI Genius训练营来啦!6场“理论+实战”课程,彻底点燃你的AI超能力

2025-06-10

突发!特朗普准备取消AI芯片出口限制

2025-05-08

微软将大量AI功能、智能体集成在Windows11,全民AI时代来了

2025-05-07
Retail
星期三, 6月 18, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

阿里国际发布最新版多模态大模型Ovis,拿下开源第一

数字金融网 by 数字金融网
2024-09-20
in 其它分类
A A
0
阿里国际发布最新版多模态大模型Ovis,拿下开源第一

看一眼菜品图就知道怎么做、能给植物看病、能把手写英文准确翻译成中文、还能精准分析财报数据……多模态能力再次升级!阿里国际AI团队发布了一款多模态大模型Ovis,在图像理解任务上不断突破极限,多种具体的子类任务中均达到了SOTA(最新技术)水平。

多模态大模型能够处理和理解多种不同类型的数据输入,例如文本、图像。与大型语言模型(LLMs)相比,大语言模型在处理和生成文本数据方面有专长,而多模态大模型能够处理非文本数据,如图像等等。

根据多模态权威综合评测平台OpenCompass的数据,Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一,赶超MiniCPM-V-2.6等行业优秀大模型。

推荐可能喜欢的

本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题

2025-06-17
火山引擎发布豆包大模型1.6,加速Agent大规模应用

火山引擎发布豆包大模型1.6,加速Agent大规模应用

2025-06-11

Ovis在OpenCompass上的测评数据情况

据介绍,Ovis能够在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。例如,Ovis可以准确回答数学问题,识别花的品种,支持多种语言的文本提取,甚至可以识别手写字体和复杂的数学公式。

案例1:Ovis对手写文案的识别及翻译能力

案例2:Ovis对复杂数学公式的处理能力

案例3:Ovis通过对图片的识别处理能够给出菜谱

具体来说,Ovis模型有五大优点:

1、创新架构设计:可学习的视觉嵌入词表:首次引入,将连续的视觉特征转换为概率化的视觉token,再经由视觉嵌入词表加权生成结构化的视觉嵌入,克服了大部分MLLM中MLP连接器架构的局限性,大幅提升多模态任务表现。

2、高分图像处理:动态子图方案:支持处理极端长宽比的图像,兼容高分辨率图像,展现出色的图像理解能力。

3、全面数据优化:多方向数据集覆盖:全面覆盖Caption、VQA、OCR、Table、Chart等各个多模态数据方向,显著提升多模态问答、指令跟随等任务表现。

4、卓越模型性能:Ovis展现出了优异的榜单表现。在多模态权威综合评测Opencompass上,Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一,超过了Qwen2-VL-7B、MiniCPM-V-2.6等模型。尤其在数学问答等方向表现媲美70B参数模型;在幻觉等任务中,Ovis-1.6的幻觉现象和错误率显著低于同级别的模型,展现了更高的生成文本质量和准确性。

5、全部开源可商用:Ovis系列模型License采用 Apache 2.0。Ovis 1.0、1.5的数据、模型、训练和推理代码都已全部开源,可复现。Ovis1.6系列中的Ovis1.6-Gemma2-9B也已开源权重。

在AI领域,多模态大模型的应用场景非常广泛,包括但不限于自动驾驶、医疗诊断、视频内容理解、图像描述生成、视觉问答等。

例如,在自动驾驶领域,多模态大模型可以整合来自摄像头、雷达和激光雷达的数据,以实现更精准的环境感知和决策。由于多模态大模型能够学习如何联合理解和生成跨多种模式的信息,也被视为朝向通用人工智能的下一个步骤。

根据此前媒体报道,阿里国际在去年成立了一支AI团队,目前已经在40多个电商场景里测试了AI能力,覆盖跨境电商全链路,包括商品图文、营销、搜索、广告投放、SEO、客服、退款、店铺装修等,其中多个应用场景均基于Ovis模型进行开发,已帮助50万中小商家、对1亿款商品进行了信息优化。

据介绍,商家的AI需求不断增长,近半年的数据显示,平均每两个月,商家对于AI的调用量就翻1倍。

附相关链接:

论文arXiv: https://arxiv.org/abs/2405.20797

Github:https://github.com/AIDC-AI/Ovis

Huggingface:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B

Demo:https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B

数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • 本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题
  • 火山引擎发布豆包大模型1.6,加速Agent大规模应用
  • Meta正与Scale AI洽谈100亿美元投资
  • 微软大咖技术分享+动手实践工作坊 | 从技术到商业,MCP协议如何驱动AI新范式?
  • 80亿美元押注Agent!全球第一CRM收购Informatica
  • OpenAI放大招!核心API支持MCP,一夜改变智能体开发
  • 社区最新LLM大语言模型学习资料来啦!教材级参考 + 学习标准 + 概念精解
  • AI 线下实战公开课(广州场)来啦!2.5小时 解锁 AI 大模型 MCP 开发核心技能

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号