首頁 » Qwen 2.5 Max:功能、DeepSeek V3 比较等

Qwen 2.5 Max:功能、DeepSeek V3 比较等

比较等 阿里巴巴刚刚发布了Qwen2.5-Max ,这是阿里巴巴目前最先进的 AI 模型。这不是像DeepSeek R1或 OpenAI 的 o1 那样的推理模型,也就是说你看不到它的思考过程。

最好将 Qwen2.5-Max 视为一种通用模型,并且是 GPT-4o、Claude 3.5 Sonnet 或DeepSeek V3的竞争对手。

在这篇博客中,我将介绍 Qwen2.5-Max 是什么、它是如何开发的、它与竞争对手相比如何以及如何访问它。

什么是 Qwen2.5-Max?

Qwen2.5-Max是阿里巴巴迄今为止最强大的AI模型,旨在与GPT-4o、Claude 3.5 Sonnet和DeepSeek V3等顶级模型竞争。

阿里巴巴是中国最大的科技公司之一,以其电子商务平台而闻名,但它在云计算和人工智能领域也建立了强大的影响力。Qwen 系列是其更广比较等泛的 AI 生态系统的一部分,从较小的开放权重模型到大型专有系统。

阿里巴巴qwen2.5-max在聊天界面的使用演示

与之前的一些 Qwen 型号不同,Qwen2.5-Max 不是开源的,这意味着它的权重不公开。

Qwen2.5-Max 经过 20 万亿个 token 的训练,拥有庞大的知识库和强大的通用 AI 能力。然而,它并不是像 DeepSeek R1 或 OpenAI 的 o1 那样的推理模型,这意味着它没有明确展示其思维过程。不过,鉴于阿里巴巴正在不断扩展 AI,我们可能会在未来看到一个专门的推理模型——可能是 Qwen 3。

Qwen2.5-Max 如何工作?

Qwen2.5-Max 使用混合专家 (MoE  )架 墨西哥数据 构, DeepSeek V3也采用了这种技术。这种方法允许模型扩展,同时保持计算成本可控。让我们以一种易于理解的方式分解其关键组件。

图表解释 qwen2.5-max 的工作原理

混合专家 (MoE) 架构

与对每项任务都使用所有参数的传统 由于跨职能团队之间存在各种  AI 模型不同,Qwen2.5-Max 和 DeepSeek V3 等 MoE 模型在任意给定时间仅激活模型中最相关的部分。

你可以把它想象成一个专家团队:如果你问一个复杂的物理问题,只有物理专家会回答,而团队中的其他人则保持不活跃。这种选择性激活意味着模型可以更有效地处理大规模处理,而不需要极高的计算能力。

这种方法使 Qwen2.5-Max 既强大又可扩展,使其能够与GPT-4o 和 Claude 3.5 Sonnet 等密集模型竞争,同时更加节省资源——密集模型是指所有参数对每个输入都被激活的模型。

训练和微调

比较等
Qwen2.5-Max 经过 20 万亿个标记的训练,涵盖广泛的主题、语言和背景。

如果将 20 万亿个 token 换个角 命中資料庫 度看,那么这大约相当于 15 万亿个单词——这个数字大到难以理解。相比之下,乔治·奥威尔的《1984》包含大约 89,000 个单词,这意味着 Qwen2.5-Max 已经接受了相当于 1.68 亿本《1984》的训练。

然而,仅靠原始训练数据并不能保证高质量的人工智能模型,因此阿里巴巴进一步完善了它:

监督微调 (SFT):人工注释者提供高质量的响应来指导模型产生更准确、更有用的输出。
从人类反馈中进行强化学习 (RLHF):该模型经过训练,使其答案与人类偏好保持一致,确保响应更加自然且更具情境感知。

Qwen2.5-Max 基准测试

Qwen2.5-Max 已与其他领先的 AI 模型进行了测试,以衡量其在各种任务中的能力。这些基准测试评估了指令模型(针对聊天和编码等任务进行了微调)和基础模型(在微调之前作为原始基础)。理解这种区别有助于明确数字的真正含义。

指导模型基准

Instruct 模型针对现实世界的应用进行了微调,包括对话、编码和常识任务。这里将 Qwen2.5-Max 与 GPT-4o、Claude 3.5 Sonnet、Llama 3.1 405B和 DeepSeek V3 等模型进行了比较。

阿里巴巴 qwen 2.5 max 的基准测试

指导模型的比较。来源:QwenLM

让我们快速分析一下结果:

Arena-Hard(偏好基准):Qwen2.5-Max 得分为 89.4,领先于 DeepSeek V3(85.5)和 Claude 3.5 Sonnet(85.2)。该基准近似于人类对 AI 生成响应的偏好。
MMLU-Pro(知识与推理):Qwen2.5-Max 得分 76.1,略高于 DeepSeek V3(75.9),但也略落后于领先者 Claude 3.5 Sonnet(78.0)和亚军 GPT-4o(77.0)。
GPQA-Diamond(常识 QA):Qwen2.5-Max 得分 60.1,略胜 DeepSeek V3(59.1),而 Claude 3.5 Sonnet 以 65.0 领先。
LiveCodeBench(编码能力):Qwen2.比较等5-Max 得分为 38.7,与 DeepSeek V3(37.6)大致相当,但落后于 Claude 3.5 Sonnet(38.9)。
LiveBench(整体能力):Qwen2.5-Max 以 62.2 的得分领先,超过 DeepSeek V3(60.5)和 Claude 3.5 Sonnet(60.3),表明在现实世界的 AI 任务中具有广泛的能力。
总体而言,Qwen2.5-Max 被证明是一个全面的 AI 模型,在基于偏好的任务和通用 AI 能力方面表现出色,同时保持了竞争性知识和编码能力。

基础模型基准

由于GPT-4o和Claude 3.5 Sonnet是专有模型,没有公开的基础版本,因此比较仅限于 Qwen2.5-Max、DeepSeek V3、LLaMA 3.1-405B 和 Qwen 2.5-72B 等开放权重模型。这可以更清楚地了解 Qwen2.5-Max 与领先的大规模开放模型相比如何。

阿里巴巴 qwen 2.5-max 基础型号的基准测试

基础模型比较。来源:QwenLM

如果仔细观察上面的图表,它会根据所评估的基准类型分为三个部分:

常识和语言理解(MMLU、MMLU-Pro、BBH、C-Eval、CMMU):Qwen2.5-Max 在该类别的所有基准测试中均处于领先地位,MMLU 得分为 87.9,C-Eval 得分为 92.2,优于 DeepSeek V3 和 Llama 3.1-405B。这些基准测试侧重于知识的广度和深度,以及在推理环境中应用这些知识的能力。
编码和解决问题(HumanEval、MBPP、CRUX-I、CRUX-O):Qwen2.5-Max 在所有基准测试中也处于领先地位,并且在编码相关任务中表现出色,在 HumanEval 上得分为 73.2,在 MBPP 上得分为 80.6,略高于 DeepSeek V3,但明显高于 Llama 3.1-405B。这些基准测试衡量编码技能、解决问题以及遵循指令或独立生成解决方案的能力。
数学问题解决(GSM8K、MATH):数学推理是 Qwen2.5-Max 最强的领域之一,在 GSM8K 上得分为 94.5,远远领先于 DeepSeek V3(89.3)和 Llama 3.1-405B(89.0)。然而,在专注于更复杂问题解决的 MATH 上,Qwen2.5-Max 得分为 68.5,略胜于竞争对手,但仍有改进空间。

如何访问 Qwen2.5-Max

访问 Qwen2.5-Max 非常简单,您可以免费试用,无需任何复杂的设置。

Qwen聊天
体验 Qwen2.5-Max 的最快方式是通过Qwen Chat平台。这是一个基于 Web 的界面,可让您直接在浏览器中与模型进行交互 – 就像在浏览器中使用 ChatGPT 一样。

要使用 Qwen2.5-Max 模型,请单击比较等模型下拉菜单并选择 Qwen2.5-Max:

qwen聊天界面模型下拉菜单

通过阿里云 API 访问

对于开发者来说,Qwen2.5-Max 可通过阿里云 Model Studio API 获取,使用方式为注册阿里云账号、开通 Model Studio 服务、生成 API Key。

由于 API 遵循 OpenAI 的格式,如果您已经熟悉 OpenAI 模型,那么集成应该很简单。有关详细的设置说明,请访问官方Qwen2.5-Max 博客。

结论

Qwen2.5-Max 是阿里巴巴迄今为止功能最强大的 AI 模型,旨在与 GPT-4o、Claude 3.5 Sonnet 和 DeepSeek V3 等顶级模型竞争。

与之前的一些 Qwen 型号不同,Qwen2.5-Max 并非开源,但可以通过 Qwen Chat 或通过阿里云上的 API 访问进行测试。

鉴于阿里巴巴对人工智能的持续投资,未来看到以推理为重点的模型也就不足为奇了——可能是 Qwen 3。

如果你想阅读更多人工智能新闻,我推荐这些文章:

返回頂端