小さな言語モデルで境界突破の検証
超コンパクトな3Bパラメータ本レポートでは、verifiable reasoningを小さな言語モデルに適用したVibeThinker-3Bを紹介する。
3Bパラメーターで、Spectrum-to-Signal post-training paradigmを基盤に、curriculum-based fine-tuningとmulti-domain reinforcement learningを組み合わせた最適化パイプラインを使用し、verifiable taskの前例のない性能を達成した。
2026年6月、中国の研究チームが開発したVibeThinker-3Bという小型言語モデルが注目を集めています。このモデルは、検証可能な論理的推論の限界を探究するためのもので、大規模モデルに匹敵する性能を達成しています。
検証可能な推論の限界を突破
VibeThinker-3Bは、30億パラメータのコンパクトなモデルで、厳格な小規模モデルの枠組み内で検証可能な推論の限界を探究しています。このモデルは、Spectrum-to-Signalのポストトレーニングパラダイムを基盤に、カリキュラムベースの教師あり微調整、多分野の強化学習、オフラインの自己蒸留を組み合わせた最適化パイプラインで構築されました。
実験結果と性能
実験では、VibeThinker-3Bが高度な検証可能なタスクで最先端の性能を達成していることが確認されました。具体的には、AIME26で94.3点を達成し、テスト時スケーリングで97.1点に向上しました。LiveCodeBench v6では80.2 Pass@1を記録し、最近の未経験LeetCodeコンテストでは96.1%の受け入れ率を示しました。
パラメータ圧縮と性能の関係
この研究は、検証可能な推論はコンパクトな論理コアに圧縮可能であるという仮説を示しています。一方、オープンドメインの知識や汎用的な能力は、事実や概念、長尾シナリオにわたるパラメータの幅広いカバーが必要です。この視点から、コンパクトなモデルは単なるデプロイ効率の高い代替ではなく、パラメータ密度の高い能力領域での最先端性能に通じる補完的なアプローチです。
まとめ
VibeThinker-3Bは、小型モデルでも最先端の性能を達成できることを示しています。この研究は、パラメータ圧縮と性能の関係について新たな視点を提供し、今後の言語モデルの開発に大きな影響を与える可能性があります。
原文の冒頭を表示(英語・3段落のみ)
View PDF
HTML (experimental)
Abstract:This technical report introduces VibeThinker-3B, a compact dense model with 3B parameters developed to investigate how far verifiable reasoning can be pushed within a strictly small-model regime. Building upon the Spectrum-to-Signal post-training paradigm, we systematically enhance the model through an optimized pipeline that includes curriculum-based supervised fine-tuning, multi-domain reinforcement learning, and offline self-distillation. Experimental evaluations demonstrate that VibeThinker-3B achieves frontier-level performance on highly demanding verifiable tasks. Specifically, it attains a score of 94.3 on AIME26 (improving to 97.1 with claim-level test-time scaling), an 80.2 Pass@1 on LiveCodeBench v6, and exhibits strong out-of-distribution generalization with a 96.1\% acceptance rate on recent unseen LeetCode contests. This effectively places it in the performance band of first-tier reasoning systems, matching or exceeding flagship models that are orders of magnitude larger, such as DeepSeek V3.2, GLM-5, and Gemini 3 Pro. Furthermore, a score of 93.4 on IFEval confirms that this extreme reasoning enhancement does not compromise strict instruction controllability. Extending our previous 1.5B work, these findings motivate the Parametric Compression-Coverage Hypothesis, which views verifiable reasoning as compressible into compact reasoning cores, while open-domain knowledge and general-purpose competence require broad parameter coverage over facts, concepts, and long-tail scenarios. This perspective suggests that compact models are not merely deployment-efficient substitutes, but a complementary path toward frontier-level performance in parameter-dense capability regimes.
※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。
Hacker News コメント
機械翻訳。HN の元スレッド ↗
ソースコードセキュリティレビューでGPT-5 nanoの代わりにこのモデルをテストしていて、ある程度の成果を出しています。RTX 3090(24 GB VRAM)上でvLLMを使用しています。ただし、構造化された出力ではあまり良くない(モデルカードに記載されている通り)ので、その点は回避策を講じています。
原文
Having some success while testing this model out as a replacement for GPT-5 nano in source code security review. Running on RTX 3090 (24 GB VRAM) via vLLM. It's not great on structured output (as noted in the model card) but I'm working around that in my harness.
これらの結果はPythonのみのもので、モデルは他の言語ではあまりうまく機能しない。他のドメインに特化したSLMsが増えることを嬉しく思う。多くの言語で動作するプログラミングに焦点を当てたMoEが有効だろう。
原文
Note that these are Python-only results, the model will not do as well with other languages.I'm glad to see more domain-focused SLMs, we need more of them! A programming focused MoE should work well across many languages.
ある程度の知能がどんなモデルにも必要でさえあれば、狭いタスクでも有用です。5歳の子供に車を運転させることができますか?10歳?12歳?車を運転するには、読むことができて、氷や雨の状態を判断し、子供がボールを追いかけるのを予測する必要があります。人間が中学生になる頃には基礎知識を身に付けています。小さなモデルも基礎知識があれば十分で、狭い範囲でも良好に機能します。どこにあるかというと、明らかに前線のモデルが持つような珍しい知識は必要ないですが、ある程度の基礎レベルがあります。
原文
There is some base level of intelligence any model needs to be useful, even in narrow tasks.Could you teach a 5 year old to drive a car? A 10 year old? A 12 year old? To drive a car requires being able to read, to have judgement about ice or rainy conditions, to anticipate a child running after a ball. By the time a human in in their mid teens they have acquired the base knowledge...Small models need to have enough base knowledge to be able to be good enough -- even in a seemingly narrow regime. Where is that? Obviously they don't need all the obscure knowledge of a frontier model but there is some base level which is probably more than it would first seem.
私はこの小さなモデルがうまく理由づけを学習していて、それ以上のことはないと考えている。特定のトピックについて何も知らないスマートな人を思い浮かべる。ただし、適切なツールがあればその人はいくらでも調査するだろう。このアイデアはとても気に入っている。なぜモデルを学習させる必要があるのか、むしろどうやって学習方法を教えて小さなPi Zeroとインターネット接続で始めさせてみようか。
原文
Am I right in thinking this is a tiny model which has been trained well to reason, and that's it? Makes me think of a smart person who doesn't know anything about a given topic, but with the right tools will go and research the heck out of it. I really like the sound of this... why have models train on learning anything when you can just train them how to learn and let them get on with it from something as small as a Pi Zero and an internet connection.
小さなモデルは単一のTaalasチップに載せることができるはずで、すでにHC1がLlama 3.1 8Bモデルを実行している。半分まともな推論がASIC上で走る時点に既に到達しており、信じられない速さだ。
原文
The interesting thing about models this small is they should be able to be put on a single Taalas chip (the HC1 already runs a Llama 3.1 8B model). We're already at the point where half-decent reasoning could be run on an ASIC (and at mind-boggling speeds).
小さくても力強いモデルブレークスルーが見えてきて、SOTAプロバイダの純粋な資本力に追いついています。私は小さな者を応援するのが好きですが、まだ早すぎるのではないかと考える人もいるでしょう。反対意見として、ベンチマークが非効率で、実際の開発ワークフローの成功を捉えられていないだけなのでは?
原文
Looks like we are seeing small but mighty model breakthroughs, outpacing the pure capital firepower of SOTA providers. I love rooting for the little guy, but is it too soon to call it? To play devils advocate, could it just be the benchmarks are not efficient enough to capture success of real developer workflows?
どうやったらこのようなモデルを活用するかというと、特定の関数を実装するために使うことが考えられる。恐らくフルアプリケーションを開発するのには向いておらず、自動補完にも不向きだろう。IDEでコード構造に制御を残したまま使用するのに適しているようだ。
原文
How would you best utilize a model like this for coding? I take it it's not meant for vibe coding a full app, and the reasoning probably makes it unsuitable for autocomplete. Would you use it to implement specific functions? I looked at one of the coding benchmarks used, Live Code Bench, and it seems to be problem descriptions with sample input and output, and then a solution with a single function or class.Seems like a really good model to use in an IDE when you still want control over the code structure then.
数年後には、自宅で使えるまともなコーディングエージェントを搭載したノートPCが欲しい。高速に動作し、ほとんどのプログラミングをこのマシン上で行い、熱を発生させずに済むようにしたい。開かれたコードを維持し、必要な時には他のモデルを使用することも可能だが、実際の仕事では既にコードを分解してレビューできる状態にしているため、まともで高速かつ無制限の環境があれば十分だと思っている。来るべきものは来ると信じている。
原文
I really hope that in a couple of years I can have a laptop that runs a reasonably good coding agent locally, that I can run fast and do most of my programming with, without running my laptop hot. I could keep open code and use other models when needed, but really for most of my work, I'm already breaking it down so that I can review code changes eventually, and I just need something reasonably decent and fast and unlimited. I think its coming.
Beats Opus 4.5の理屈ですか。AがBにいき、BがCにいったら、AはCに何かを送れるか?我々は最善で解釈する必要がある。この「AがBにいき、BがCにいったら、AはCに何かを送れるか?」という文は、物事(例えばボール)を送る概念と関係性に関するパズルかもしれない。シナリオ:AはBに何かを与え、BはそれをCに渡す。
質問:Aは同じものをCにも与えることができる?
回答:Aが二重コピー(例えば物事が複製)を得る場合のみ可能。それ以外では、Bに渡した後、Aはそれを持っておらず、「送る」ことはできない。
原文
Beats Opus 4.5 on reasoning you say?Prompt: If A goes to B who then goes to C, can A send something to C?Response:We need to interpret best. The phrase "If A goes to B who then goes to C, can A send something to C?" could be a puzzle about the concept of sending something (like passing a ball) and the relationships.Scenario: A gives something to B, and B passes it on to C.
Question: Can A also give the same thing to C?
Answer: Only if A can obtain a second copy (e.g., the thing was duplicated). Otherwise, after handing it to B, A no longer holds it and cannot “send” it unless a copy exists.[Lots of other unnecessary commentary and "scenarios" that make even lesser sense]
古い基盤モデルであるQwen2.5をベースに、3Bのfoundation modelを使用してVibeThinker-3Bが開発された。
原文
Notable: VibeThinker-3B is developed through a staged post-training pipeline built upon Qwen2.5-Coder-3B base, a compact 3B foundation model.
Qwen2.5 is ancient by LLM standards.