レイテンシとは

LATENCY

読み: レイテンシ

公開日 2026.03.26 最終更新 2026.04.03

レイテンシとは、AIモデルにプロンプトを入力してから最初のトークンが出力されるまで

読み: レイテンシ

AIモデルにプロンプトを入力してから最初のトークンが出力されるまで、あるいは回答が完了するまでの応答遅延時間を指す。顧客体験や業務の処理速度に直結する重要指標である。

かんたんに言うと

レストランで注文をしてから料理がテーブルに運ばれてくるまでの待ち時間。厨房の広さや料理人の腕、レシピの複雑さによって時間は変わる。

レイテンシがAIシステムの現場定着を左右するAPI経由LLM呼び出しの現実

プロンプトを投げてから返答が来るまでの沈黙。これがレイテンシである。我々が普段API経由でLLMを呼び出すとき、ネットワークの向こう側では膨大な計算が行われている。OpenAIのAPIを叩いて数秒待たされる経験は誰にでもあるだろう。この数秒を許容できるか。社内チャットボットなら多少遅くても文句は出ないかもしれない。だが、リアルタイムの音声翻訳や、物流倉庫でのピッキング指示システムに組み込む場合、1秒の遅延が致命傷になる。現場の作業員は画面の前で立ち止まってはくれないのである。応答速度は単なるスペックではない。システムが現場で使われるか、それともゴミ箱行きになるかを分ける境界線である。

クラウドサーバーの奥底で起きている推論処理

入力されたテキストはトークンに分割され、クラウドサーバー上のGPUに送られる。ここで推論処理が走る。NVIDIAのH100を何千枚も並べたクラスターが、次の単語の確率を計算し続ける。この計算の重さがレイテンシの正体である。モデルのサイズが大きければ大きいほど、計算量は跳ね上がる。さらに厄介なのがネットワークの遅延である。東京からアメリカ西海岸のサーバーにリクエストを投げれば、物理的な距離だけで数十ミリ秒が飛ぶ。AWSの東京リージョンにモデルをデプロイできれば話は早いが、最新モデルが常に国内で使えるとは限らない。インフラの制約とモデルの重さ。この二重苦をどう乗り越えるか、設計者の腕が試される。判断が分かれるところである。

現場が求めるスピードと代表的ツールの実力

ChatGPTのWeb画面で数秒待つのは構わない。だが、製造ラインの異常検知で数秒待てば不良品は次の工程へ流れてしまう。Claude 3.5 Sonnetは賢いが、APIの応答速度には波がある。Gemini 1.5 Flashはスピードに特化しているが、複雑な推論ではボロが出る。物流の配送ルートの動的再計算にどのモデルを使うべきか。スピードを優先してGeminiを選ぶか、精度を求めてClaudeを非同期で回すか。現場の要件次第で正解は変わる。リアルタイム性が求められるシステムに、重厚長大なモデルをそのまま突っ込むのは素人のやり方である。現場のオペレーションを観察し、何秒の遅延までなら業務が回るのかを測らなければならない。悩ましい問題である。

パラメータ数と量子化がもたらす妥協点

精度を上げれば遅くなる。速くすれば馬鹿になる。これがLLMの残酷な現実である。70Bクラスのモデルを動かせばレイテンシは悪化する。そこで量子化の出番となる。16ビットの重みを4ビットに圧縮して計算を軽くする手法。確かに速くなる。だが、日本語の微妙なニュアンスの理解力は確実に落ちる。法務部門の契約書チェックに量子化したモデルを使って、免責事項の抜け漏れを見落としたら誰が責任を取るのか。クラウドの遅延を嫌ってエッジAIに逃げる手もある。工場内のローカルPCで軽量モデルを動かせばネットワーク遅延はゼロである。しかし、PCのスペック上限という新たな壁にぶつかる。どこで妥協するか。技術の限界を理解した上で、業務要件との折り合いをつける泥臭い作業が待っている。

当社の見解

当社はOpenAI APIを完全廃止し、EmbeddingもLLMも全てローカルで稼働させている（2026年4月時点）。これにより月額のAPI費用がゼロになっただけでなく、機密情報や顧客データを外部に送信せずにAI処理できるようになった。クライアントのログデータをマスキングなしでそのまま分析に回せるのは、ローカルLLMだからこそ実現できる。2026年4月にはOllama常駐実行（CPU 25%、GPU 30%を常時占有）を廃止し、FastEmbed（ONNX Runtime）による非常駐型推論に移行。処理が必要な瞬間だけプロセスを起動し、完了後に即座に終了する設計で、アイドル時のリソース消費をゼロにした。あえて一般的なデスクトップPC環境で複数のローカルLLMを実機検証した経験から言えることは、ベンチマークスコアと実務での使い勝手、そして常駐時のリソース消費は全て別の指標だということだ。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する