ai, 软件工程,

一分钟读论文：《小语言模型作为评委提升代码生成》

Unbug

By Unbug Follow Feb 26, 2026 · 1 min read

一分钟读论文：《小语言模型作为评委提升代码生成》

Share this

小语言模型作为评委提升代码生成

核心亮点

这篇来自瑞士 Università della Svizzera italiana 的研究，用小语言模型（SLM）当”代码评委”，居然能让代码生成效果超越更大的模型，而且成本超级便宜！

关键数据

最佳评委：Qwen2.5 Coder 3B，Kappa 分数 0.57，甚至超过 GPT-4.1-mini
性能提升：生成 10 个候选 + 1 个评委，比单模型提升 5.3%-20.6%
成本对比：SLM 团队约 $600 vs 30B 模型约 $17,500，差了 29 倍！
最佳配置：Qwen2.5 Coder 3B 的 pass@1 达到 0.521，比同系列 33B 模型还高 3.4%

具体提升效果

模型	提升幅度
Phi-4 mini 4B	+20.6%
Qwen2.5 Coder 3B	+16.0%
DeepSeek Coder 1.3B	+12.1%
OpenCoder 1.5B	+11.1%
Gemma-3 4B	+5.3%

一句话总结

用两个小模型（一个生成代码，一个当评委），效果能 beat 大模型，成本只要几十分之一，这就是”小步快跑”的胜利！

论文链接：https://arxiv.org/pdf/2602.11911

Releated

转载请注明出处，支持我请扫码打赏💰或点击广告🪧

微信打赏

支付宝打赏

一分钟读论文：《软件稳定性：系统性文献综述》

一分钟读论文：《大语言模型代码生成的规格对齐》