RotorQuantとは

ROTORQUANT
読み: ロータークォント

RotorQuantとは、KVキャッシュ圧縮の高速化手法で、クリフォード代数を用いて回転計算を効率化する

読み: ロータークォント

KVキャッシュ圧縮の高速化手法で、クリフォード代数を用いて回転計算を効率化する。ベースとなったTurboQuantに対し10〜19倍の速度向上を達成しながら、パラメータ数を44分の1に削減した

かんたんに言うと

TurboQuantの「回転計算」を、もっと効率的な数学(クリフォード代数)で書き直した高速版。

クリフォードローターによる計算量削減

TurboQuantの回転処理を「3次元ごとの小さな回転」に置き換え、レジスタ内で完結させる。パラメータ数が44分の1に削減され、GPUのキャッシュ効率が最大化される。GitHubで公開済み。

速度特化のトレードオフ

TurboQuantベクトル全体をグローバルに混ぜ合わせるのに対し、RotorQuantは3次元ブロック単位で処理するため、極端に偏ったデータの圧縮精度はTurboQuantに一歩譲る。128k以上の長コンテキストでの安定性は検証中(推測: 発表から日が浅い)。

TurboQuantからの進化

RotorQuantはGoogleのTurboQuant(ICLR 2026)を再設計したもの。TurboQuantが使う128次元の回転行列はd×d=16,384回の乗算が必要だが、RotorQuantのクリフォードローターはわずか100回程度の乗算で同じ変換を実現する。パラメータ数も44分の1(372 vs 16,399)に削減される。

実測性能

Qwen2.5-3B-InstructのKVキャッシュデータで検証した結果、TurboQuantとほぼ同等の精度(コサイン類似度0.990 vs 0.991)を維持しつつ、NVIDIAのCUDAで10〜19倍、Apple SiliconのMetalで9〜31倍の高速化を達成。RTX 5090上でllama.cppを使い、4ビット量子化で367トークン/秒のデコード速度を記録している。

導入時の判断基準

KVキャッシュの圧縮が必要な長文処理(4Kトークン以上のコンテキスト)で効果を発揮する。ただし2026年4月時点ではvLLMへの統合は未完了で、llama.cpp経由での利用が主な導入経路になる。短いコンテキストの処理では標準的な量子化で十分なため、導入の費用対効果は用途に依存する。

当社の見解

当社はOpenAI APIを完全廃止し、EmbeddingLLMも全てローカルで稼働させている(2026年4月時点)。これにより月額のAPI費用がゼロになっただけでなく、機密情報や顧客データを外部に送信せずにAI処理できるようになった。クライアントのログデータをマスキングなしでそのまま分析に回せるのは、ローカルLLMだからこそ実現できる。2026年4月にはOllama常駐実行(CPU 25%、GPU 30%を常時占有)を廃止し、FastEmbed(ONNX Runtime)による非常駐型推論に移行。処理が必要な瞬間だけプロセスを起動し、完了後に即座に終了する設計で、アイドル時のリソース消費をゼロにした。あえて一般的なデスクトップPC環境で複数のローカルLLMを実機検証した経験から言えることは、ベンチマークスコアと実務での使い勝手、そして常駐時のリソース消費は全て別の指標だということだ。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する