小さな言語モデルで境界突破の検証

#AI

小さな言語モデルで境界突破の検証 超コンパクトな3Bパラメータ

本レポートでは、verifiable reasoningを小さな言語モデルに適用したVibeThinker-3Bを紹介する。

3Bパラメーターで、Spectrum-to-Signal post-training paradigmを基盤に、curriculum-based fine-tuningとmulti-domain reinforcement learningを組み合わせた最適化パイプラインを使用し、verifiable taskの前例のない性能を達成した。

2026年6月、中国の研究チームが開発したVibeThinker-3Bという小型言語モデルが注目を集めています。このモデルは、検証可能な論理的推論の限界を探究するためのもので、大規模モデルに匹敵する性能を達成しています。

検証可能な推論の限界を突破

VibeThinker-3Bは、30億パラメータのコンパクトなモデルで、厳格な小規模モデルの枠組み内で検証可能な推論の限界を探究しています。このモデルは、Spectrum-to-Signalのポストトレーニングパラダイムを基盤に、カリキュラムベースの教師あり微調整、多分野の強化学習、オフラインの自己蒸留を組み合わせた最適化パイプラインで構築されました。

実験結果と性能

実験では、VibeThinker-3Bが高度な検証可能なタスクで最先端の性能を達成していることが確認されました。具体的には、AIME26で94.3点を達成し、テスト時スケーリングで97.1点に向上しました。LiveCodeBench v6では80.2 Pass@1を記録し、最近の未経験LeetCodeコンテストでは96.1%の受け入れ率を示しました。

パラメータ圧縮と性能の関係

この研究は、検証可能な推論はコンパクトな論理コアに圧縮可能であるという仮説を示しています。一方、オープンドメインの知識や汎用的な能力は、事実や概念、長尾シナリオにわたるパラメータの幅広いカバーが必要です。この視点から、コンパクトなモデルは単なるデプロイ効率の高い代替ではなく、パラメータ密度の高い能力領域での最先端性能に通じる補完的なアプローチです。

まとめ

VibeThinker-3Bは、小型モデルでも最先端の性能を達成できることを示しています。この研究は、パラメータ圧縮と性能の関係について新たな視点を提供し、今後の言語モデルの開発に大きな影響を与える可能性があります。

原文の冒頭を表示(英語・3段落のみ)

View PDF

HTML (experimental)

Abstract:This technical report introduces VibeThinker-3B, a compact dense model with 3B parameters developed to investigate how far verifiable reasoning can be pushed within a strictly small-model regime. Building upon the Spectrum-to-Signal post-training paradigm, we systematically enhance the model through an optimized pipeline that includes curriculum-based supervised fine-tuning, multi-domain reinforcement learning, and offline self-distillation. Experimental evaluations demonstrate that VibeThinker-3B achieves frontier-level performance on highly demanding verifiable tasks. Specifically, it attains a score of 94.3 on AIME26 (improving to 97.1 with claim-level test-time scaling), an 80.2 Pass@1 on LiveCodeBench v6, and exhibits strong out-of-distribution generalization with a 96.1\% acceptance rate on recent unseen LeetCode contests. This effectively places it in the performance band of first-tier reasoning systems, matching or exceeding flagship models that are orders of magnitude larger, such as DeepSeek V3.2, GLM-5, and Gemini 3 Pro. Furthermore, a score of 93.4 on IFEval confirms that this extreme reasoning enhancement does not compromise strict instruction controllability. Extending our previous 1.5B work, these findings motivate the Parametric Compression-Coverage Hypothesis, which views verifiable reasoning as compressible into compact reasoning cores, while open-domain knowledge and general-purpose competence require broad parameter coverage over facts, concepts, and long-tail scenarios. This perspective suggests that compact models are not merely deployment-efficient substitutes, but a complementary path toward frontier-level performance in parameter-dense capability regimes.

※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。

元記事を読む ↗