【実演3選】OpenAIから登場したAIエージェント「Operator」がめちゃくちゃすごいので紹介します!

【実演3選】OpenAIから登場したAIエージェント「Operator」がめちゃくちゃすごいので紹介します!_AIキャンプ中村俊也

今回は、OpenAIからついに登場!ブラウザを直接操作できるAIエージェント「Operator(オペレーター)」について、3つの実演とともに解説します!あまりの機能に恐怖を感じると同時に、未来に向けて非常に大きなインパクトがあるので、ぜひ最後までご覧ください。
今回は、「ニュースを調べてGoogleドキュメントに記録」「メールを送信する」「ゲーム「ソリティア」をプレイ」の3つができました!

※OpenAI Operatorは、現在は米国のChatGPT Proアカウントで使用可能です。VPNをアメリカにすれば日本でも使用可能です。

▼目次
0:00 はじめに OpenAI Operator
0:43 実演①ニュースを調べてGoogleドキュメントに記録
3:13 OpenAI Operatorの解説
5:52 実演②Gmailを送信する
7:50 実演③ゲーム「ソリティア」をプレイ
9:06 OpenAI Operatorを触った感想と考察

▼文字起こし

こんにちは、AIキャンプの中村です。今回、ついにOpenAIから「オペレーター」というWebブラウザを操作できるAIエージェントが登場しましたので、実演を交えながらご紹介させていただきます。この後、仕組みについて詳しく述べる前に、まずは実際に操作している様子をご覧いただきたいと思います。こちらが私のChatGPTの画面です。この「ChatGPT Pro」モードは月額220ドルで利用可能で、その中に「オペレーター」というボタンがあります。このボタンを押すと、OpenAIの「オペレーター」というAIエージェントの画面が表示されます。では、早速指示を出してみます。例として「2025年1月の日本の主要ニュースを1つ選び、Googleドキュメントに日本語で整理してください」と命令してみました。オペレーターが実行を開始すると、ニュースサイトを調べ、画面をスクロールして情報を確認し始めます。そして、Googleドキュメントを開こうとする際にGoogleアカウントのログイン画面で操作が一旦止まりました。ここでは、私が手動でログインを行い、Googleドキュメントを開きました。その後、オペレーターが作業を再開し、ニュースを整理してドキュメントに書き込んでくれました。驚いたのは、ニュースのリサーチに約49秒、Googleドキュメントへの書き込みに約2分というスピード感です。ログイン作業だけ人間が行いますが、それ以外のリサーチやデータ入力をすべてオペレーターが自動で行うのは非常に革新的でした。次に、オペレーターがGmailを利用してメールを自動送信する実演を試しました。適当な挨拶文を入力し、指定のメールアドレスに送信するよう命じると、オペレーターがGmailの画面を開き、ログイン後に宛先と本文を入力、送信まで行いました。途中、送信前にユーザー確認が求められるため、意図しないメール送信が防がれる設計になっている点も安心です。結果、受信側でしっかりとメールが届いていることも確認できました。このように、メール作成や送信をAIエージェントが代行するのは大きな進化と言えます。さらに、ネット上でソリティアというゲームをプレイさせるという実験も行いました。オペレーターが自動でソリティアを検索し、ゲームを開始しました。カードをめくる操作はできましたが、最終的にはゲームをクリアすることはできませんでした。ただ、AIがブラウザ上でゲームをプレイするという新しい可能性を示した点は非常に興味深かったです。ここからは、オペレーターの技術的な背景について簡単に解説します。オペレーターは、独自のブラウザを使用してウェブページを参照し、入力やクリック、スクロールといった操作を行います。このエージェントは、「コンピューターユージングエージェント(CUA)」と呼ばれる技術を活用しています。具体的には、GPT-4のビジョン機能やチェイン・オブ・ソートといったプロンプトエンジニアリング技術、さらに「OpenAI O1」という推論モデルと組み合わせて画面を認識し、ステップを踏んで作業を進めています。ウェブサイトのスクリーンショットを取得し、画面を認識して作業を行うため、技術的にはシンプルですが非常に効果的です。この技術を応用することで、フォームへの記入やオンラインショッピング、ニュースの比較と整理、さらにはプログラムの作成まで幅広いタスクを実行できます。今後は、Webブラウザだけでなくパソコン自体を操作できるように進化し、ローカルファイルの操作やフォルダ管理なども可能になると期待されています。これにより、従来のAPIやRPAが必要だった作業を、より柔軟に実行できるようになるでしょう。現時点では研究段階で精度に課題が残る部分もありますが、技術の進化により、アプリやウェブサイトの利用方法そのものが変わる可能性があります。私たちが直接Webサービスを操作するのではなく、こうしたAIエージェントを通じてサービスを利用する時代が訪れるかもしれません。これは、ビジネスや日常生活において非常に大きなインパクトをもたらすでしょう。今回のオペレーターの実演から、今後の可能性を大いに感じました。無理に現段階で触る必要はありませんが、この流れだけはしっかりと追っていくべきだと思います。以上、OpenAIのブラウザ操作AIエージェント「オペレーター」の解説でした。参考になれば幸いです。ありがとうございました。