Computer Useとは
Computer Useとは、AIが人間の代わりにPCの画面を視覚的に認識
読み: コンピューター・ユース
AIが人間の代わりにPCの画面を視覚的に認識し、マウスやキーボードを直接操作してあらゆるソフトウェア上の業務を自律的に遂行する最新の技術である。
かんたんに言うと
目隠しを外されたAIが、私たちと同じようにモニターを眺め、マウスを握ってクリックし始めるようなものである。
APIなしで画面を見て操作するComputer Useの基本概念
Anthropicが発表したComputer Useは、これまでのAPI連携を前提としたシステム構築の常識を根底から揺さぶる。従来のRPAは、画面の特定の座標やHTMLの構造に依存していた。そのため、UIが少し変更されただけでエラーを吐き出して停止する。現場のエンジニアはそのメンテナンスに忙殺されてきた。
だが、Computer Useは違う。
AI自身がGUIを視覚的に解釈し、人間と同じようにボタンを探してクリックする。APIが用意されていない古い社内システムや、SaaSの管理画面であっても、ブラウザやアプリを直接操作できる。これは単なるツールの置き換えではない。システム間連携の設計思想そのものが問われているのではないだろうか。
画面認識と自律的アクションによる動作の仕組み
裏側で動いているのは、Claude 3.5 Sonnetのような強力なVLMである。AIは数秒おきにPCのスクリーンショットを取得し、画面上のどこに何があるかをピクセル単位で把握する。
そして、次に取るべき行動を計算し、OSのAPIを叩いてマウスカーソルを動かし、キーボードを叩く。
例えば経費精算システムを開いて、未承認の領収書画像をチェックし、金額が一致していれば承認ボタンを押すという一連の動作。これをVLMが視覚情報とテキスト指示をすり合わせながら進めていく。ただ、画面のレンダリング遅延やポップアップの出現など、予期せぬUIの変化にAIがどう反応するかは、まだ判断が分かれるところである。
法務や経理における実用例とツールの現在地
マーケティングや情シスでの事例はよく耳にするが、私が注目しているのは法務や経理といったバックオフィスでの適用である。
例えば、法務部門での契約書チェック。
PDFで送られてきた契約書を開き、社内の過去の類似契約と見比べ、修正案をWordに直接書き込む。これをMultiOnのようなブラウザ操作エージェントや、Claudeのデスクトップアプリが代行する。APIが公開されていない国税庁のデータベースから適格請求書発行事業者番号を検索し、自社の経理システムに転記する作業も、彼らの得意分野である。しかし、実務で使えるレベルのツールはまだ限られている。どのツールを選ぶべきか、現場の担当者にとっては悩ましい問題だろう。
非定型業務の遂行能力と現場が直面する技術的限界
定型化できない業務をAIに任せられるメリットは計り知れない。だが、現場の落とし穴は常に存在する。
AIは時折、とんでもない操作ミスを犯す。
画面上の削除ボタンを保存ボタンと誤認してクリックしてしまったらどうなるか。人間なら直感で避けるような致命的なミスを、AIは平然と実行してしまうことがある。処理速度も決して速くない。スクリーンショットの解析と推論を繰り返すため、人間が操作するよりも時間がかかるケースが散見される。どこまでAIを信用し、どこから人間が介入してチェックするのか。その境界線の引き方は、プロジェクトごとに判断が分かれる。
導入に向けた評価基準と安全な環境構築
マネージャー層が導入を決断する際、最も警戒すべきはセキュリティである。AIにPCのフルアクセス権限を与えるということは、悪意のあるプロンプトインジェクションによって、社内の機密情報が外部に送信されるリスクを抱え込むことを意味する。
絶対に本番環境のPCで動かしてはいけない。
Dockerなどで隔離されたサンドボックス環境を用意し、そこでのみ動作させるのが鉄則である。コンプライアンス要件を満たすためのログ取得や、操作権限の最小化も欠かせない。新しい技術に飛びつくのは簡単である。しかし、その技術がもたらすリスクを正確に見積もり、安全な運用体制を敷ける企業だけが、この技術を真に使いこなせる。
同じ失敗を二度としないAIエージェント
今のAIは、聞けば何でも答えてくれます。
でも、セッションが切れた瞬間に前回の失敗を忘れます。
当社が開発しているAIは、過去の経緯を念頭に置いて、
聞かれる前に「それは前回うまくいきませんでした」と声をかけます。
人間にも同じ失敗をさせず、AI自身も繰り返しません。
古参の社員が横にいるように、黙っていても気づいてくれる。
それが、当社が考える本当のAI社員です。
