微软推出140亿参数小语言模型 Phi-4:专攻数学等领域复杂推理
微软近日推出了一个名为 Phi-4 的 140 亿参数小型语言模型(SLM),专注于数学等领域的复杂推理任务。作为 Phi 系列的最新成员,Phi-4 在数学推理、编程任务和长文本处理等方面表现出色,展示了微软在小规模语言模型领域的技术突破。
Phi-4 的主要特点与创新
- 数学推理能力突出
Phi-4 在数学竞赛问题上的表现尤为亮眼,例如在美国数学竞赛 AMC 10/12 中得分超过 90,超越了包括 Gemini Pro 1.5 在内的多个更大规模的模型。 - 编程任务表现优异
Phi-4 在编程任务上表现出色,尤其在 HumanEval 基准测试中以 82.6% 的准确率领先其他开源模型,如 Llama 3.3 和 Qwen 2.5。 - 长文本处理能力增强
通过引入 midtraining 阶段,Phi-4 能够处理长达 16K 的上下文窗口,保持高召回率,尤其适合处理长文本任务。 - 合成数据与高质量数据结合
Phi-4 的训练过程中大量使用合成数据,结合多智能体提示、自我修订和指令逆转等技术,提升了模型的推理和问题解决能力。同时,模型还使用了精选的高质量有机数据,确保数据多样性和质量。 - 安全与负责任 AI
Phi-4 在训练后阶段进行了安全对齐,确保与用户的交互符合负责任 AI 原则。此外,微软还与独立 AI Red Team 合作,评估模型在典型和对抗场景下的潜在风险。
应用场景
Phi-4 的应用场景广泛,包括:
- 教育辅助:帮助学生解答 STEM 领域的复杂问题,提供数学和编程作业辅导。
- 技术研究:辅助研究人员进行文献综述和数据分析。
- 软件开发:支持代码生成、调试和功能实现。
- 智能助手:提供信息检索、日程管理等个人助理服务。
- 企业决策支持:分析大量数据,提供市场趋势分析和风险评估。
发布与可用性
Phi-4 目前已在 Azure AI Foundry 上线,并计划下周在 Hugging Face 上发布,进一步扩大其访问范围。