模型规模与效果不总成正比：4B、Zero-shot 的意外胜利

Qwen3 模型于 2025 年 4 月 29 日正式发布，本次更新涵盖了两款 MoE 模型（参数量分别为 30B 和 235B）以及六款 Dense 模型，规模从 0.6B 到 32B 不等。值得关注的是，官方报告中特别指出，Qwen3-4B 这样的轻量级模型，其性能已可媲美上一代旗舰模型 Qwen2.5-72B-Instruct。要知道，Qwen2.5-72B-Instruct 是行业模型微调的首选基础模型。如果这一性能表现属实，那么对 B 端应用的影响将非常显著：不仅大幅降低了硬件部署门槛，同时也显著提升了推理效率。

近期我们正好在做一个行业模型微调项目，客户需求是训练一个模型，用于识别通话内容中是否存在诈骗风险，并要求模型能够输出推理过程，以增强结果的可解释性和可信度。基于这个任务场景，我们对比测试了 Qwen3-4B 与 Qwen2.5-72B-Instruct 在该任务上的表现。测试结果显示，Qwen3-4B 在这个任务上的确优于 Qwen2.5-72B-Instruct，并且Zero-shot的性能优于few-shot

1
2
3
4


{
   "reason": [通话过程是否涉嫌推理过程],
   "result": [涉诈判断结果],
}

	模型名称	准确率	召回率	精确率	F1分数	TN	FP	FN	TP
0	qwen3-4b-0-shot	0.5975	0.7373	0.5034	0.5983	965	958	346	971
1	qwen3-4b-2-shot	0.6019	0.347	0.5152	0.4147	1493	430	860	457
2	qwen2.5-72b-0-shot	0.6306	0.2688	0.602	0.3717	1689	234	963	354
3	qwen2.5-72b-2-shot	0.7062	0.4024	0.7626	0.5268	1758	165	787	530

从测试结果来看，更大的模型并不一定带来更优的效果，尤其是在实际任务需求与预训练目标不完全一致时。这次我们对比了 Qwen3-4B 与 Qwen2.5-72B-Instruct，在通话反诈识别任务中的表现揭示了几个非常值得关注的现象：

小模型的实际表现已经逼近甚至超越大模型。Qwen3-4B 在 Zero-shot 场景下就已达到 0.5983 的 F1 分数，明显优于 Qwen2.5-72B 的 Zero-shot（0.3717）和 2-shot（0.5268）表现。
Zero-shot 的效果竟优于 Few-shot。这打破了我们对"提供更多示例 = 更好表现"的常规认知。特别是在 Qwen3-4B 上，Zero-shot 的召回率高达 73.73%，而 2-shot 模式却骤降至 34.7%，性能反而退步。这一现象的背后，其实与 Qwen3-4B 的训练策略密切相关。根据官方报告，Qwen3-4B 在预训练阶段引入了思维链（Chain-of-Thought）类任务微调，具备较强的推理能力。在这种架构下，模型更倾向于自主"展开思路"，而不是死板地依赖人为示例进行模仿。当提示词中加入人为示例（如 2-shot）时，反而可能限制了模型的思维路径，导致推理过程"被框住"，从而影响性能。换句话说，对这类已经经过 Reasoning 优化的小模型而言，最好的提示往往是不提示，让模型自由发挥。这也是近年来大模型应用中一个值得重视的趋势：Prompt 并不是"越明确越好"，而是要根据模型的训练风格与推理机制进行定制。

精度-召回的权衡更趋实用导向。在诈骗检测这类任务中，我们更倾向于牺牲部分精确率，换取更高的召回率，以减少漏报。Qwen3-4B 在 Zero-shot 模式下的召回率达到 73.73%，是目前方案中最优解，说明其更适合部署在风险优先的真实场景中。
成本与性能的再平衡。Qwen2.5-72B 的部署成本是 Qwen3-4B 的数十倍，不论是显存要求还是推理时延。而现在，我们能够在远低于成本的基础上，拿到更优性能，这为行业模型的大规模部署和产品落地提供了全新路径。

综上，“小而精 + prompt优化"的思路，或将成为新一代行业模型微调的主流路径。我们也计划进一步探索基于 Qwen3-4B 的轻量级监督微调方案，以充分发挥其结构效率与对抗泛化能力，打造真正可解释、可部署、可控的行业专用模型。