Human Preference Evalとは

HUMAN PREFERENCE EVAL
読み: ヒューマンプリファレンスイーバル

Human Preference Evalとは、AIモデルの出力を人間の評価者が比較・判定し、どちらの回答が優れているかを評価する手法

読み: ヒューマンプリファレンスイーバル

AIモデルの出力を人間の評価者が比較・判定し、どちらの回答が優れているかを評価する手法。自動評価メトリクスでは捉えきれない「自然さ」「有用さ」「安全性」を人間の判断で測定する。

かんたんに言うと

2つのAIの回答を並べて「どっちがいい?」と人間に聞く評価方法。テストの点数では測れない「この回答の方が役に立つ」という判断を人間の感覚で下す。Human Preference Evalのデータは、RLHFの訓練にも使われている。

自動評価との違い

BLEUROUGEなどの自動メトリクスは正解テキストとの一致度を測る。正解が1つに決まらない対話や要約のタスクでは自動評価の限界がある。Human Preference Evalは「どちらがより有用か」を人間が判断するため、実際のユーザー体験に近い評価ができる。ただし評価者間のばらつきの管理が必要で、評価コストも高い。

Chatbot Arenaの仕組み

LMSYSが運営するChatbot Arenaは、匿名の2モデルの回答をユーザーにHuman Preference Evalさせるプラットフォーム。Eloレーティングでモデルをランク付けする。自動ベンチマークのスコアが高くてもArenaでの評価が低いモデルがあり、ユーザーの体感と自動評価のギャップを可視化した。

導入時の判断基準

自社のAI導入でモデル選定を行う場合、自動ベンチマークだけでなく社内ユーザーによるHuman Preference Evalを併用すると判断の精度が上がる。評価には最低50件の比較が必要。評価基準を事前に定義し、評価者にすり合わせておくことが前提になる。

当社の見解

当社はAI長期記憶システムを自社開発・運用している(2026年4月現在、1,655件の記憶データを蓄積)。この仕組みにより、AIが過去3ヶ月分の経営判断や設計方針を文脈ごと保持し、「前にも同じ話をしましたよね」という手戻りが激減した。セッションが切れても議論の続きから再開できるため、壁打ち相手としてのAIの価値が根本的に変わった。技術的にはCognee MCPサーバーによる記憶保存と、FastEmbed(ONNX Runtime)+ LanceDBによる非常駐型ベクトル検索(検索レイテンシ8ms、GPU不要)を採用。Hindsight(LongMemEval 91.4%精度)やomega-memoryなど複数の既製品を実環境で検証・棄却した上での選定であり、「個人PCでもエンタープライズでも負荷なく動く軽量さ」を最優先に設計している。

同じ失敗を二度としないAIエージェント

今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。

当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。

古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。

相談する