ツールコール精度とは

TOOL CALL ACCURACY

読み: ツールコールセイド

公開日 2026.03.28 最終更新 2026.04.02

ツールコール精度とは、AIがユーザーの指示を解釈し、外部ツール

読み: ツールコールセイド

AIがユーザーの指示を解釈し、外部ツール（API、データベース、検索エンジンなど）を正しく呼び出して実行できるかの正確さを示す評価指標。ツール選択、引数生成、実行成功率の3要素で構成される。

かんたんに言うと

「東京の天気を教えて」と頼んだとき、AIが天気APIを選び、引数に「Tokyo」と「今日の日付」を正しく渡し、結果を返せるかどうかの指標。

3つの構成要素

単一の指標ではなく、3つの要素に分解して測定する。
まず「ツール選択の正確性」。複数のツールが与えられた環境で、適切なものを選べたかの割合。天気を聞いているのに計算ツールを呼んでしまえば不正解。
次に「引数生成の正確性」。選んだツールに渡すパラメータの型・値・過不足がスキーマ通りかどうか。必須パラメータの欠落や、存在しないパラメータの勝手な追加はエラーの原因になる。
最後に「総合的な実行成功率」。正しいツールを選び、正しい引数を生成し、実際にエラーなく実行され、ユーザーが求める結果を返せたかの割合。

ベンチマークと現場での評価基準

Berkeley Function Calling Leaderboardなどの技術ベンチマークでは、引数の完全一致率が80〜90%以上であること、存在しないツールを呼び出すハルシネーション率が0%に近いことが「精度が高い」と評価される基準になっている。
だが現場では、ベンチマークの数字だけで判断できない場面も多い。APIの仕様が曖昧だったり、ユーザーの指示が複数のツールにまたがるケースでは、モデルの判断が割れる。AIエージェントを業務に組み込む際、ツールコール精度のテストは避けて通れない。

当社の見解

当社ではClaude Code、Antigravity（Gemini）、Codex（OpenAI）の3つのAIエージェントを日常業務で併用している（2026年4月現在）。この体制により、社員1人あたり複数のAIが並行して作業を進め、人間は判断とレビューに集中できるようになった。エージェント間の記憶共有により「別のAIに同じ説明を繰り返す」無駄が消え、プロジェクトの引き継ぎコストがゼロに近づいた。失敗の教訓が自動で次の作業に注入される仕組み（Agentic RAG）も構築し、同じミスの再発率を構造的に下げている。さらにProactive AI（意図先読み型アシスタント）を実装し、ユーザーがメッセージを送る前に関連する過去の記憶を自動検索・注入する仕組みを稼働させている（意図分類精度80%、応答時間3.6秒）。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する