Qwen3 模型于 2025 年 4 月 29 日正式发布,本次更新涵盖了两款 MoE 模型(参数量分别为 30B 和 235B)以及六款 Dense 模型,规模从 0.6B 到 32B 不等。值得关注的是,官方报告中特别指出,Qwen3-4B 这样的轻量级模型,其性能已可媲美上一代旗舰模型 Qwen2.5-72B-Instruct。要知道,Qwen2.5-72B-Instruct 是行业模型微调的首选基础模型。如果这一性能表现属实,那么对 B 端应用的影响将非常显著:不仅大幅降低了硬件部署门槛,同时也显著提升了推理效率。
近期我们正好在做一个行业模型微调项目,客户需求是训练一个模型,用于识别通话内容中是否存在诈骗风险,并要求模型能够输出推理过程,以增强结果的可解释性和可信度。基于这个任务场景,我们对比测试了 Qwen3-4B
与 Qwen2.5-72B-Instruct
在该任务上的表现。测试结果显示,Qwen3-4B
在这个任务上的确优于 Qwen2.5-72B-Instruct
,并且Zero-shot
的性能优于few-shot
|
|
模型名称 | 准确率 | 召回率 | 精确率 | F1分数 | TN | FP | FN | TP | |
---|---|---|---|---|---|---|---|---|---|
0 | qwen3-4b-0-shot | 0.5975 | 0.7373 | 0.5034 | 0.5983 | 965 | 958 | 346 | 971 |
1 | qwen3-4b-2-shot | 0.6019 | 0.347 | 0.5152 | 0.4147 | 1493 | 430 | 860 | 457 |
2 | qwen2.5-72b-0-shot | 0.6306 | 0.2688 | 0.602 | 0.3717 | 1689 | 234 | 963 | 354 |
3 | qwen2.5-72b-2-shot | 0.7062 | 0.4024 | 0.7626 | 0.5268 | 1758 | 165 | 787 | 530 |
从测试结果来看,更大的模型并不一定带来更优的效果,尤其是在实际任务需求与预训练目标不完全一致时。这次我们对比了 Qwen3-4B
与 Qwen2.5-72B-Instruct
,在通话反诈识别任务中的表现揭示了几个非常值得关注的现象:
- 小模型的实际表现已经逼近甚至超越大模型。Qwen3-4B 在 Zero-shot 场景下就已达到 0.5983 的 F1 分数,明显优于 Qwen2.5-72B 的 Zero-shot(0.3717)和 2-shot(0.5268)表现。
- Zero-shot 的效果竟优于 Few-shot。这打破了我们对"提供更多示例 = 更好表现"的常规认知。特别是在 Qwen3-4B 上,Zero-shot 的召回率高达 73.73%,而 2-shot 模式却骤降至 34.7%,性能反而退步。这一现象的背后,其实与 Qwen3-4B 的训练策略密切相关。根据官方报告,Qwen3-4B 在预训练阶段引入了思维链(Chain-of-Thought)类任务微调,具备较强的推理能力。在这种架构下,模型更倾向于自主"展开思路",而不是死板地依赖人为示例进行模仿。当提示词中加入人为示例(如 2-shot)时,反而可能限制了模型的思维路径,导致推理过程"被框住",从而影响性能。换句话说,对这类已经经过 Reasoning 优化的小模型而言,最好的提示往往是不提示,让模型自由发挥。这也是近年来大模型应用中一个值得重视的趋势:Prompt 并不是"越明确越好",而是要根据模型的训练风格与推理机制进行定制。
- 精度-召回的权衡更趋实用导向。在诈骗检测这类任务中,我们更倾向于牺牲部分精确率,换取更高的召回率,以减少漏报。Qwen3-4B 在 Zero-shot 模式下的召回率达到 73.73%,是目前方案中最优解,说明其更适合部署在风险优先的真实场景中。
- 成本与性能的再平衡。Qwen2.5-72B 的部署成本是 Qwen3-4B 的数十倍,不论是显存要求还是推理时延。而现在,我们能够在远低于成本的基础上,拿到更优性能,这为行业模型的大规模部署和产品落地提供了全新路径。
综上,“小而精 + prompt优化"的思路,或将成为新一代行业模型微调的主流路径。我们也计划进一步探索基于 Qwen3-4B 的轻量级监督微调方案,以充分发挥其结构效率与对抗泛化能力,打造真正可解释、可部署、可控的行业专用模型。