Temperatureとは

TEMPERATURE
読み: テンパレチャー

Temperatureとは、大規模言語モデルが文章を生成する際の単語選択のランダム性を決定

読み: テンパレチャー

大規模言語モデルが文章を生成する際の単語選択のランダム性を決定し、回答の正確性と創造性のバランスを調整する中核的な制御パラメータである。API経由でシステムを構築する際、必ず直面する設定項目である。

かんたんに言うと

サイコロの重心をいじるようなものである。0に近づければ常に同じ目が出るイカサマダイスになり、1に近づければ予測不能な暴れ馬になる。

回答の固さと揺らぎを数値で制御するTemperatureの仕組み

LLMが文章を紡ぐプロセスは、次に続く確率が最も高い単語を計算し続けるだけの単純作業といえる。この確率分布の計算結果に対して、どの程度の揺らぎを許容するかを決めるのがTemperatureである。
数値を0に設定すると、モデルは常に確率が最も高い単語だけを愚直に選び続ける。結果として出力は固定化され、何度実行しても同じテキストが返ってくる。
本当にそれだけでいいのか。
実はそう単純ではない。確率のトップを走り続けるだけの文章は、機械翻訳の初期のような無味乾燥なテキストになりがちである。逆に数値を上げると、あえて2番目や3番目に確率の高い単語を拾いに行くようになる。この揺らぎが人間らしい自然な表現を生む。ただ、どこまで揺らぎを許容するかは常に悩ましい。

数値の変動がもたらす創造性と正確性のトレードオフ

数値を上げれば表現は豊かになるが、同時にハルシネーションのリスクが跳ね上がる。存在しない判例をでっち上げたり、架空の製品仕様を語り始めたりする。
現場の落とし穴はここにある。
プロンプトの指示をどれだけ緻密に書き込んでも、Temperatureが1.5を超えていればモデルは指示を無視して暴走する。逆に0.1のような低すぎる数値を設定すると、今度はプロンプトで求めた多様なアイデアを全く出せなくなる。
正確性と創造性は常にトレードオフの関係にある。どちらを取るか。
業務の性質によって判断が分かれるところである。テキストの要約なら低め、キャッチコピーの生成なら高めといった具合に、用途に応じたチューニングが求められる。

業務目的別の最適値と主要AIツールでの設定方法

法務部門が契約書の条項チェックを行う場合、Temperatureは0一択である。ここで創造性を発揮されては困る。一言一句の正確性が求められる業務で揺らぎは単なるノイズでしかない。
一方で、製造部門が過去の不良品データから新しい改善策のアイデアを抽出するようなケースでは、0.7あたりを設定すると予期せぬ視点が得られることがある。
OpenAI APIやAnthropicClaude、GoogleのGeminiなど、主要なモデルはすべてAPIのリクエストボディでこの数値を指定できる。デフォルト値はモデルによって異なるが、だいたい0.7から1.0の間に設定されていることが多い。GUIのチャット画面で使っている限りこの数値はブラックボックスだが、API経由でシステムに組み込むなら明示的な制御が必須になる。

自社のAI活用フェーズに応じた最適な運用戦略

社内システムにLLMを組み込む際、Temperatureの値を誰がどう管理するのか。
開発者が適当に決めた固定値で運用を始めてしまうケースが後を絶たない。しかし、業務部門から回答が固すぎる、たまに嘘をつくというクレームが来たとき、プロンプトの修正だけで対応しようとするのは悪手である。
まずはPoCの段階で、対象業務における最適な数値を検証すべきである。
ガバナンスの観点からも、部門ごとに許容されるパラメータの範囲を定義しておく必要がある。経理のシステムと営業の企画立案システムで同じ設定を使うのは正気の沙汰ではない。システム設計の初期段階でこのパラメータの制御方針を確定させないと、後から運用でカバーするのは骨が折れる。

当社の見解

当社はOpenAI APIを完全廃止し、EmbeddingLLMも全てローカルで稼働させている(2026年4月時点)。これにより月額のAPI費用がゼロになっただけでなく、機密情報や顧客データを外部に送信せずにAI処理できるようになった。クライアントのログデータをマスキングなしでそのまま分析に回せるのは、ローカルLLMだからこそ実現できる。2026年4月にはOllama常駐実行(CPU 25%、GPU 30%を常時占有)を廃止し、FastEmbed(ONNX Runtime)による非常駐型推論に移行。処理が必要な瞬間だけプロセスを起動し、完了後に即座に終了する設計で、アイドル時のリソース消費をゼロにした。あえて一般的なデスクトップPC環境で複数のローカルLLMを実機検証した経験から言えることは、ベンチマークスコアと実務での使い勝手、そして常駐時のリソース消費は全て別の指標だということだ。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する