Latest
Trending

微软开源最强小参数大模型—Phi-3 Mini

微软开源最强小参数大模型—Phi-3 Mini

2024-04-24

数字化深水区里，中国企业到底需要怎样的AI应用底座？

国产王炸！上海AI Lab开源Lumina-DiMOO，开创多模态理解与生成新范式

2025-09-16

2025-09-15

估值超1800亿美元！大模型平台Anthropic完成130亿美元融资

估值超1800亿美元！大模型平台Anthropic完成130亿美元融资

2025-09-03

2025-09-02

高效大规模创新3D重建模型iLRM

2025-09-01

马斯克开源新模型：能实时抓取社交平台数据，20万块H100训练

OpenAI刚刚发布GPT-Realtime，AI Agent进入超逼真对话时代

2025-08-29

专治智能体盲跑！微软发布AI Agent 5大可观测性，打通任督二脉

专治智能体盲跑！微软发布AI Agent 5大可观测性，打通任督二脉

2025-08-28

当AI成为预言家：大数据时代，我们正在失去理解世界的能力吗？

当AI成为预言家：大数据时代，我们正在失去理解世界的能力吗？

2025-08-26

马斯克开源新模型：能实时抓取社交平台数据，20万块H100训练

马斯克开源新模型：能实时抓取社交平台数据，20万块H100训练

2025-08-25

AI Agent接管谷歌搜索！预订餐厅、定制搜索结果，一键搞定所有事

AI Agent接管谷歌搜索！预订餐厅、定制搜索结果，一键搞定所有事

2025-08-22

OpenAI单月收入突破10亿美元！算力严重不足，急需“星际之门”

2025-08-21

宣战马斯克！OpenAI进军脑机接口，Altman圆8年前梦想

突发！DeepSeek刚刚开源V3.1-Base

2025-08-20

Retail

星期五, 9月 19, 2025

关于数字金融网

联系我们&合作

No Result

View All Result

数字金融网

No Result

View All Result

微软开源最强小参数大模型—Phi-3 Mini

by 数字金融网

2024-04-24

in 其它分类

微软开源最强小参数大模型—Phi-3 Mini

4月23日晚，微软在官网开源了小参数的大语言模型——Phi-3-mini。

据悉，Phi-3-mini是微软Phi家族的第4代，有预训练和指令微调多种模型，参数只有38亿训练数据却高达3.3T tokens，比很多数百亿参数的模型训练数据都要多，这也是其性能超强的主要原因之一。

Phi-3-mini对内存的占用极少，可以在 iPhone 14等同类手机中部署使用该模型。尽管受到移动硬件设备的限制，但每秒仍能生成12 个tokens数据。

值得一提的是，微软在预训练Phi-3-mini时使用了合成数据，能帮助大模型更好地理解语言架构、表达方式、文本语义理解、逻辑推理以及特定业务场景的专业术语等。

推荐可能喜欢的

数字化深水区里，中国企业到底需要怎样的AI应用底座？

国产王炸！上海AI Lab开源Lumina-DiMOO，开创多模态理解与生成新范式

开源地址：https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

Ollama地址：https://ollama.com/library/phi3

技术报告：https://arxiv.org/abs/2404.14219

2023年6月，微软首次推出了专用于Python编码的模型Phi-1，只有13亿参数却在编程领域击败了GPT-3.5等知名模型，这让微软看到小参数模型的广阔发展空间。

随后在Phi-1基础之上，微软推出了具备推理、文本生成、内容总结、起草邮件的大语言模型Phi-1.5，成为当时最强小参数模型之一。

2023年12月，微软在Phi-1.5基础之上开发了Phi-2，参数只有27亿并且在没有人类反馈强化学习和指令微调的情况下，击败了130亿参数的Llama-2和70亿参数的Mistral；在编码和数学测试中，Phi-2的性能甚至超过了700亿参数的Llama-2。

本次发布的Phi-3系列集合了之前三代所有的优秀技术特征，并使用了海量高质量数据集、创新的训练、微调方法，使其成为目前最强的开源小参数模型。

Phi-3-mini架构简单介绍

Phi-3-mini采用了transformer架构，支持4K和128K上下文窗口，也是同类小模型中第一个支持128K的开源产品。

高质量训练数据集是Phi-3-mini性能超强的重要原因之一，微软使用了3.3T tokens数据集包括：经过严格质量筛选的网络公开文档、精选的高质量教育数据和编程代码；

通过合成数据创建的教科书式数据，例如，数学、编码、常识推理、世界常识、心理科学等；

高质量聊天格式的监督数据，涵盖各种主题以反映人类在不同方面的偏好，例如，遵循指令、真实性、诚实性等。

在训练策略方面，为了帮助Phi-3-mini更好地吸收合成数据，微软使用了迭代训练策略：初始阶段，Phi-3-mini使用了公开网络数据，学会了基本的语法、语义和上下文理解；

迭代阶段，将合成数据与网络数据合并构建全新的训练集，并对Phi-3-mini进行迭代训练，进一步强化模型的理解和生成能力，并且进行多次重复训练。

测试数据方面，Phi-3 Mini在MMLU、GSM-8K、MedQA、BigBench-Hard等知名基准测试平台中，对语言理解、逻辑推理、机器翻译、编码等进行了综合测试。

结果显示，Phi-3-mini仅通过少量样本提示，在语言理解、编码、数学的性能超过了参数更大的模型，整体性能非常出色。

微软表示，在未来几周内还会发布70亿参数的Phi-3-small和140亿参数的Phi-3-medium两款小模型。其中，Phi-3-medium的性能可媲美Mixtral 8x7B 和GPT-3.5，资源消耗却更少。

本文素材来源微软官网、Phi-3论文，如有侵权请联系删除

数字金融网

发表评论取消回复

数字金融网

聚焦金融（银行、证券、保险）行业数字化转型的科技生态平台，关注信用科技、数字货币/区块链、支付科技、监管与反洗钱、隐私计算、数字孪生等科技在金融领域的发展与应用，面向金融行业从业者，解读金融政策、分享最新金融技术应用，输出有影响力的白皮书/报告，组织数字金融科技活动等，为金融机构实现数字化转型提供智库支持。

北京企智未来教育科技有限公司

service@rpa-cn.com

最新文章

内容分类

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号

No Result

View All Result

Copyright©2017-2022 数字金融网 All Rights Reserved 京ICP备19023145号