Prompt Leak Preventionとは
Prompt Leak Preventionとは、多モーダルAIモデルの動作を規定する指示書であるプロンプト
読み: Prompt Leak Prevention
かんたんに言うと
レストランの秘伝のレシピを客に教えないよう、キッチンに鍵をかけたり、調理手順を隠したりするような情報管理の取り組みである。
プロンプトリークが発生する仕組み
AIは悪意あるユーザーから巧妙な質問を投げかけられると、内部の指示内容を回答として出力してしまうことがある。これをプロンプトインジェクションと呼び、システムが本来意図しない挙動をとる原因となる。設計図が盗まれることは、単なる情報漏洩を超えて、AIシステムのなりすましや不正利用に直結する。このリスクを理解し、入出力の制御を検討する必要がある。
具体的な防御手段
防衛策として、入力された質問をAIに渡す前に別のフィルタリングモデルで検閲する手法が有効である。また、システムプロンプトを隠蔽するために、入力を一度要約して別のAIに処理させる二重構造をとるケースもある。さらに、出力内容を監視し、特定のキーワードが含まれていないかを確認する仕組みを構築する。技術的な防御とあわせて、ログを定期的に確認し、異常な質問を検知する体制も欠かせない。
ビジネスにおける判断軸
社内でLLMを活用する場合、どこまで厳密な対策を講じるかは、扱うデータの機密性とAIに与える権限に依存する。公開型のチャットボットであれば、プロンプトが漏れても被害が限定的であるため、コストと利便性のバランスを重視する。一方で、社内データにアクセスできるAIであれば、より堅牢な防御策を採用する判断が必要となる。セキュリティと利便性はトレードオフの関係にあるため、利用目的に応じた適切な防壁を築くことが求められる。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
