• Latest
  • Trending
Arena-Hard:开源高质量大模型评估基准

Arena-Hard:开源高质量大模型评估基准

2024-04-23
AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!

AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!

2025-06-20

本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题

2025-06-17
火山引擎发布豆包大模型1.6,加速Agent大规模应用

火山引擎发布豆包大模型1.6,加速Agent大规模应用

2025-06-11

Meta正与Scale AI洽谈100亿美元投资

2025-06-09

微软大咖技术分享+动手实践工作坊 | 从技术到商业,MCP协议如何驱动AI新范式?

2025-06-06
80亿美元押注Agent!全球第一CRM收购Informatica

80亿美元押注Agent!全球第一CRM收购Informatica

2025-05-28

OpenAI放大招!核心API支持MCP,一夜改变智能体开发

2025-05-22

社区最新LLM大语言模型学习资料来啦!教材级参考 + 学习标准 + 概念精解

2025-05-19

AI 线下实战公开课(广州场)来啦!2.5小时 解锁 AI 大模型 MCP 开发核心技能

2025-05-13
解密NVIDIA团队的代理式AI技术实践

解密NVIDIA团队的代理式AI技术实践

2025-05-12
微软AI Genius训练营来啦!6场“理论+实战”课程,彻底点燃你的AI超能力

微软AI Genius训练营来啦!6场“理论+实战”课程,彻底点燃你的AI超能力

2025-06-10

突发!特朗普准备取消AI芯片出口限制

2025-05-08
Retail
星期六, 6月 21, 2025
关于数字金融网
联系我们&合作
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们
No Result
View All Result
数字金融网
No Result
View All Result

Arena-Hard:开源高质量大模型评估基准

数字金融网 by 数字金融网
2024-04-23
in 其它分类
A A
0
Arena-Hard:开源高质量大模型评估基准

开发一个安全、准确的大模型评估基准通常需要包含三个重要内容:1)稳定识别模型的能力;2)反映真实世界使用情况中的人类偏好;3)经常更新以避免过拟合或测试集泄漏。

但传统的基准测试通常是静态的或闭源的,同时大模型的技术发展和功能迭代比较,这凸显了建立具有高可分离性评估基准的必要性。

大模型研究组织Lmsys Org则开源了Arena-Hard。这是一个全新高质量大模型评估基准。

开源地址:https://github.com/lm-sys/arena-hard

推荐可能喜欢的

AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!

AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!

2025-06-20

本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题

2025-06-17

Lmsys将新的基准测试平台 Arena Hard v0.1 与当前领先的聊天 大模型基准测试 MT Bench 进行比较。

结果显示,Arena Hard v0.1 相对于 MT Bench 提供了明显更强的可分离性,且置信区间更窄。它还与 Chatbot Arena(仅限英文)的人类偏好排名具有更高的一致性(89.1%)。

Arena-hard-v0.1与广泛采用的大模型基准相比显示出最高的可分离性 (87.4%),并且也便宜且运行速度快(25 美元)。

Arena-hard-v0.1构建了一个管道,可以从通过 Chatbot Arena 收集的 200,000 个用户查询的数据集中自动提取高质量提示。这包括多样性,提示集应涵盖广泛的现实世界主题;提示质量,每个提示都应具有高质量来衡量大模型的水平。

为了确保提示多样性,Lmsys在BERTopic中采用主题建模管道,首先使用 OpenAI 的嵌入 (text-embedding-3-small) 转换每个提示,使用 UMAP 降维,并使用基于层次的聚类算法 (HDBSCAN) 来识别聚类然后使用 GPT-4-turbo 进行总结。这有助于Lmsys识别涵盖广泛领域的 4000 多个主题。

但主题集群在大模型基准测试中具有不同的质量和可分离性。Lmsys为大模型开发了一个经过校准的系统提示,帮助其根据七个关键标准例如,特异性、领域知识、问题解决能力等选择高质量的用户查询。

大模型Judge(GPT-3.5-Turbo、GPT-4-Turbo)对每个提示进行注释,从 0 到 7,以指示满足多少个标准。然后,Lmsys根据提示的平均得分对每个簇进行评分。

下面,Lmsys展示了从低到高平均分数的主题集群示例。例如,游戏开发或数学证明。另一方面,得分较低的集群指向琐碎或模糊的问题,例如“设计风格和影响”。

为了了解提示分数是否与可分离性相关,Lmsys对每个分数采样 50 个提示,并比较 GPT-4 和 Llama-70b 的响应,并以 GPT-4-Turbo 作为判断。

Lmsys表示高潜在得分与 GPT-4 对 Llama-70b 的胜率之间存在很强的相关性。在其他模型对中也观察到类似的趋势,例如Claude Sonnet 与 Haiku 以及Mistral-large 与 Mixtral。

本文素材来源Lmsys Org官网,如有侵权请联系删除

数字金融网

数字金融网

发表评论 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

数字金融网

聚焦金融(银行、证券、保险)行业数字化转型的科技生态平台,关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用,面向金融行业从业者,解读金融政策、分享最新金融技术应用,输出有影响力的白皮书/报告,组织数字金融科技活动等,为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

  • AI杯·2025星际争霸2锦标赛夏季赛邀你一起战斗!
  • 本世纪最伟大AI专访之一:AI安全、Agent、OpenAI等重磅话题
  • 火山引擎发布豆包大模型1.6,加速Agent大规模应用
  • Meta正与Scale AI洽谈100亿美元投资
  • 微软大咖技术分享+动手实践工作坊 | 从技术到商业,MCP协议如何驱动AI新范式?
  • 80亿美元押注Agent!全球第一CRM收购Informatica
  • OpenAI放大招!核心API支持MCP,一夜改变智能体开发
  • 社区最新LLM大语言模型学习资料来啦!教材级参考 + 学习标准 + 概念精解

内容分类

  • 人物观点
  • 其它分类
  • 报告|调研
  • 数字风控
  • 数据治理
  • 数智平台
  • 活动|峰会
  • 营销与新零售科技
  • 隐私计算
  • 关于我们
  • RPA中国
  • LowCode低码时代
  • 隐私政策
  • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result
View All Result
  • 首页
  • 隐私计算
  • 数字风控
  • 数据治理
  • 数智平台
  • 营销与新零售科技
  • 人物观点
  • 活动|峰会
  • 报告|调研
  • 关于数字金融网
    • 联系我们

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号