Bonsaiとは

BONSAI
読み: ボンサイ

Bonsaiとは、PrismMLが開発した1ビット量子化LLMファミリーである

読み: ボンサイ

PrismMLが開発した1ビット量子化LLMファミリーである。全ての重みを+1または-1の2値に圧縮することで、8.2Bパラメータのモデルを約1.15GBに収めた。通常の16ビットモデル比で約14分の1のサイズでありながら、Llama 3.1 8Bを上回るベンチマークスコアを達成している。

かんたんに言うと

通常のLLMは1つの重みを16ビットの数値で表す。Bonsaiはこれを1ビット、+1か-1かの2択に絞り込んでいる。情報量は減るが、モデルサイズは大幅に小さくなる。約16GBだった8Bモデルが約1.15GBに収まり、iPhoneでも動作する。

1ビット量子化の仕組み

従来の量子化は、16ビットの重みを8ビットや4ビットに圧縮する手法が主流だった。Bonsaiはこれを1ビットまで突き詰めている。エンベディング層、アテンション層、言語モデルヘッドのすべてが1ビットで構成されている。

後から精度を落とす従来の量子化とは異なり、Bonsaiは最初から1ビット精度で学習される。この方式がBonsaiの中核となる技術である。重みが+1/-1の2値のみになるため、行列積の計算が単純な加減算に置き換わり、推論速度が向上する。

性能とベンチマーク

Bonsai 8Bのベンチマーク平均スコアは70.5(IFEval、GSM8K、HumanEval+、BFCL、MuSR、MMLU-Reduxの6種)。Llama 3.1 8Bの67.1を上回り、Ministral3 8Bの71.0に迫る水準にある。

推論速度はM4 Pro Macで131トークン/秒、RTX 4090で368トークン/秒、iPhone 17 Pro Maxで約44トークン/秒。エネルギー効率は16ビットモデル比で4〜5倍とされている。

ファミリーにはBonsai 4B(0.57GB)とBonsai 1.7B(0.24GB)も含まれ、用途に応じてサイズを選択できる。

試してみる方法

Bonsaiを動かす環境は大きく3つある。

iPhoneやiPadで試す場合、App Storeから「Locally AI」をインストールし、モデル選択画面で「Bonsai (8B)」を選ぶ。約1.2GBのダウンロード後、すぐにチャットを開始できる。Wi-Fi環境での初回ダウンロードを推奨する。

Apple Silicon搭載のMacでは、MLXフレームワークをセットアップし、Hugging FaceからMLX形式のモデルをダウンロードして実行する。

NVIDIA GPU搭載のPCでは、llama.cppCUDA対応版をビルドし、GGUF形式のモデルをダウンロードしてロードする。

手元に環境がない場合は、PrismMLが公開しているGoogle Colab Notebookを使えば、ブラウザ上でBonsaiを試すことができる。セルを順に実行するとモデルが起動する。

ライセンスはApache 2.0であり、商用利用も可能である。

ローカルLLMへの影響

1ビットモデルの実用化は、ローカルLLMの普及を後押しする可能性がある。16GBのVRAMを必要としたモデルが1GB台で動くなら、GPUを搭載していないノートPCやスマートフォンでもLLMが使える。クラウドAPIに依存しないオフライン環境でのAI活用が現実味を帯びてくる。

ただし、1ビットへの圧縮には表現力の低下というトレードオフが伴う。複雑な推論やニュアンスの理解においてはフル精度モデルに劣る場面がある。現時点では、軽量なタスクに向いており、高度な分析や長文生成にはフル精度モデルとの使い分けが必要になる。

当社の見解

当社はOllama上でQwen3.5 9Bを運用しており、1ビットモデルは未導入である。Bonsaiが示した「1GB台で実用的な推論が可能」という実績は、エッジデバイスでのAI活用を検討する際の有力な選択肢になる。特にスマートフォン上でのオフラインAIアシスタントや、メモリが限られたIoTデバイスへの組み込みに向いている。フル精度モデルとの使い分けを前提に、用途ごとに精度とリソース効率を比較検証して判断することになる。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する