「動詞」を標準化してAIエージェントが操作する「WebMCP」という規格

◯この記事の3行まとめ

・AIに「このサイトで予約して」と頼むだけで、ブラウザ操作まで任せられる未来が見えてきた。
・WebMCPは、Webページの機能をAIが理解して操作できるようにする新しいWeb規格。
・AIがインターネットの“利用者”として動く時代の入口になるかもしれない。

GoogleがWebMCPの早期プレビュー版を公開したそうです。

MCPとは、AIエージェントが外部システムやデータベースを参照するプロトコルで、Anthropic社が開発した技術です。

リアルタイムにAPI経由でアクセスするので、AIエージェントの開発が一気に進んだ印象を私は持っています。

MCPサーバーは便利だなぁとか。

のんきにかまえていたら、今度はAIエージェントがWEBページを操作するMCP技術が登場したようです。

それが、今回の「WebMCP」。

AIがもう少し柔軟にWEBページを探索してくれたらなと。

思ったことはたびたびあるので。

内容を見てみることにしました。

まだ開発途中なので、公開されている情報をまとめながら見ていきます。

WebMCPとは?

WebMCPとは、Webページに用意されている機能をAIエージェントが操作できるツールとして提供するために、W3C Community Groupで策定中のWeb標準です。

AIエージェントは、Webページの画面読み取りやHTML構造の解析により、Webページの中身を理解していますが。

WebMCPを利用すれば、Webページの内容を定義してAIに知らせることができるので。

トークン効率が上昇すると言われています。

それによって実現されることは。

W3C Community Groupの報告書を見ると、

WebMCPは、ユーザーとエージェントが同じWebインターフェース内で連携して作業する共同ワークフローを可能にし、既存のアプリケーションロジックを活用しながら、共有コンテキストとユーザーコントロールを維持します。

WebMCPコミュニティグループ報告書案の英文を翻訳したもの

とあり、ユーザーとAIエージェントがブラウザ上で共同作業することを実現するものであると分かります。

ユーザーがブラウザを開いたページ上で、サイト管理者がWebMCPを通じて用意した機能をAIエージェントが操作するという感じですかね。

つまり、ブラウザがユーザーにとっても、AIエージェントにとっても。

作業で使用するインターフェースに変わるということです。

ブラウザに実装する機能なので、AIモデルごとの対策も不要。

WEBサイト自体が、AIエージェントにとってのMCPとなるので、WebMCPということみたいです。

2種類のAPIコードが載っていた

WebMCPのページには、2種類のAPIコードが例で表示されています。

引用させていただきますと。

・宣言型API

<form toolname="searchFlights"
      tooldescription="Search flights">
  <input name="origin" type="text"
         required pattern="[A-Z]{3}">
  <input name="destination" type="text"
         required pattern="[A-Z]{3}">
  <input name="date" type="date" required>
  <button type="submit">Search</button>
</form>

・命令型API

navigator.modelContext.registerTool({
  name: "searchFlights",
  description: "Search available flights",
  inputSchema: {
    type: "object",
    properties: {
      origin: {
        type: "string",
        pattern: "^[A-Z]{3}$"
      },
      destination: {
        type: "string",
        pattern: "^[A-Z]{3}$"
      },
      date: {
        type: "string",
        pattern: "^\\d{4}-\\d{2}-\\d{2}$"
      }
    },
    required: ["origin", "destination", "date"]
  },
  async execute({ origin, destination, date }) {
    const results = await flightAPI.search({
      origin, destination, date
    });
    return {
      content: [{
        type: "text",
        text: JSON.stringify(results)
      }]
    };
  }
});

引用:WebMCP

宣言型APIの方は、HTMLタグで「どんなツールか?」「何をできるのか?」をtoolnameやtooldiscriptionで説明しているようです。

また、入力規則も指定していますね。

命令型APIは、JavaScriptを使って動的に同じ機能を用意しています。

navigator.modelContextで構築し、動作を制御する場合に利用するようです。

このコード例の内容は、飛行機のチケットを探すフォームのようです。

つまり、フォーム操作をAIエージェントが迷うことなくできるように、説明と機能を加えているということが分かります。

このようにブラウザでの表示に対する操作であるため、AIモデル側は読み取るだけで良いということですね。

このように、WebMCPを実装することで、WEBサイトで「できること」が定義されることになります。

そのため、WebMCPは「動詞」を定義する規格であると言われています。

定義された「動詞」を使って、AIエージェントは私達のネット活動をサポートしてくれるようになる。

そんな感じですかね。

何ができるのか?

フォーム操作ができるということは、今までのAIのWEB参照の形を変えるということです。

AIエージェントがデータを入力したり、情報を習得したりということはすでに実現されてますが。

WEB上のサービスも、AIエージェントに一括して依頼できるということに。

コードの例がチケット予約だったので、予約フォーム操作はできそうです。

また、フォーム操作というところで考えると。

・ECサイトでの商品購入
・サイト内検索の実行

ということも可能そうです。

RAGやWebSearchをAIが行う時に、指定されたURLのみ読み込み、内容を分析しています。

そのため、サイト内で関係する別のページなどは、そのURLを指定しないと正確な情報収集とならない・・・ことがありました。

スクレイピングして突っ込めば良いだけではあるとは思いますが。

複数のツールを行ったり来たりする状況が生まれるんですよねー。

それを、AIにプロンプトで指示するだけになるかもしれないというのは大きいです。

また、ブラウザベースのインターフェースであるということは。

SaaSなどクラウド上で提供されるアプリケーションとの相性は抜群ではないかと。

業務アプリをクラウドで利用していて、ブラウザ起動にしている場合。

入力や報告などの提携業務も、AIエージェントに指示することができますね。

RPAでは操作を設定した上で自動化されてますが。

WebMCPを利用すると、プロンプトなどの指示でAIが自動化してくれるという感じかなと。

これはすごい。

ブラウザの参照で良いのでセキュリティもOK?

ブラウザ上での定義となるということは、表示に対してAIエージェントが操作を行うという。

私達がWebサイトを利用する時と同じ動きをすることになるわけですね。

ということは、表示内容を知るためにデータベースへのアクセスは要らないわけです。

MCPサーバーなど、AIエージェントがアクセスできる別のデータベースを用意しなくても良いと。

もちろん、用途によるというのはありますがー。

例えば、公開データをWEBサイトで公開している場合。

そのままWebMCP対応してしまえば、ユーザーが使い慣れたAIエージェントでWEBサイトの情報を利用できるということにもなります。

なので、元のデータのあるデータベースは守られやすくなりそうですね。

また、ブラウザの認証を利用することになりますし。

複雑な認証も不要になるとのこと。

もちろん、セキュリティに関しては一概に安心とは言えません。

コミュニティでも権限設定を確実にすることが求められています。

今後ベストプラクティスも出てくると思いますし。

間違いなく実装すれば、ユーザーにとっても、管理者にとっても便利な規格となると思います。

楽しみです

なんだかんだで、このブログの更新頻度は週3〜5回となってます。

計画してるとはいえ、少しびっくりしてます。

日々積み重なっていく投稿を元に、何らかのヒントとなる記事を投稿できればなと思っています。

とはいえ、自分のブログでもAIに記事整理させるのは一苦労です。

それが、WebMCPによって簡略化される可能性が出てきて、だいぶ興奮しています。

ネット上での相談相手から、何かの操作をするパートナーとなり。

インターネットなどの情報技術に苦手意識を持つ人でも、恩恵を受けられるような。

そんな第一歩となる気がします。

さらに詳しく知りたい場合は、冒頭にリンクを用意した「海外SEO情報ブログ」さんや。

以下のWebMCPについてのページを御覧ください。

このブログや記事の内容について、疑問に思っている事はありますか?

もしあれば、どんなことでも構いませんので、コメントを残していただくか、問い合わせフォームよりご連絡ください。

著者プロフィール
ぽんぞう@勉強中

はじめまして、「ぽんぞう@勉強中」です。
小企業に一人情報部員として働いている40代のおじさんです。IT技術での課題解決を仕事にしていますが、それだけでは解決できない問題にも直面。テクノロジーと心の両面から寄り添えるブログでありたいと、日々運営しています。詳しくはプロフィールページへ!