ツールコール精度とは
ツールコール精度とは、AIがユーザーの指示を解釈し、外部ツール
読み: ツールコールセイド
AIがユーザーの指示を解釈し、外部ツール(API、データベース、検索エンジンなど)を正しく呼び出して実行できるかの正確さを示す評価指標。ツール選択、引数生成、実行成功率の3要素で構成される。
かんたんに言うと
「東京の天気を教えて」と頼んだとき、AIが天気APIを選び、引数に「Tokyo」と「今日の日付」を正しく渡し、結果を返せるかどうかの指標。
3つの構成要素
単一の指標ではなく、3つの要素に分解して測定する。
まず「ツール選択の正確性」。複数のツールが与えられた環境で、適切なものを選べたかの割合。天気を聞いているのに計算ツールを呼んでしまえば不正解。
次に「引数生成の正確性」。選んだツールに渡すパラメータの型・値・過不足がスキーマ通りかどうか。必須パラメータの欠落や、存在しないパラメータの勝手な追加はエラーの原因になる。
最後に「総合的な実行成功率」。正しいツールを選び、正しい引数を生成し、実際にエラーなく実行され、ユーザーが求める結果を返せたかの割合。
ベンチマークと現場での評価基準
Berkeley Function Calling Leaderboardなどの技術ベンチマークでは、引数の完全一致率が80〜90%以上であること、存在しないツールを呼び出すハルシネーション率が0%に近いことが「精度が高い」と評価される基準になっている。
だが現場では、ベンチマークの数字だけで判断できない場面も多い。APIの仕様が曖昧だったり、ユーザーの指示が複数のツールにまたがるケースでは、モデルの判断が割れる。AIエージェントを業務に組み込む際、ツールコール精度のテストは避けて通れない。
当社の見解
当社ではClaude Code、Antigravity(Gemini)、Codex(OpenAI)の3つのAIエージェントを日常業務で併用している(2026年4月現在)。この体制により、社員1人あたり複数のAIが並行して作業を進め、人間は判断とレビューに集中できるようになった。エージェント間の記憶共有により「別のAIに同じ説明を繰り返す」無駄が消え、プロジェクトの引き継ぎコストがゼロに近づいた。失敗の教訓が自動で次の作業に注入される仕組み(Agentic RAG)も構築し、同じミスの再発率を構造的に下げている。さらにProactive AI(意図先読み型アシスタント)を実装し、ユーザーがメッセージを送る前に関連する過去の記憶を自動検索・注入する仕組みを稼働させている(意図分類精度80%、応答時間3.6秒)。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
