【徹底解説】ChatGPTの高度な音声対話機能「Advanced Voice Mode」の教科書(使い方、活用事例、応用例、APIなど)

AIキャンプ®の中村です。今回はChatGPTの高度な音声対話機能「Advanced Voice Mode」について徹底解説!この動画1本でボイスモードの基本はばっちりです!!
前回9月にアップした速報動画( • ついに来た!ChatGPTに人間並みの音声対話機能が登場!「アドバンスドボ… )より、さらに詳しく解説します!カスタム設定や、バックグラウンド再生、APIやRAGなどの機能、そして、ボイスモードが今度社会にどのような影響を与えるか、実際の実演を含めて紹介します。
※本動画は、2024年10月10日に実施したAIセミナーのアーカイブ動画です。
▼目次
0:00 はじめに
1:00 ChatGPT Advance Voice Modeのイメージ
1:41 ChatGPT Advance Voice Modeとは?
5:11 期待されるビジネスでの活用例
6:56 GPT-4omniの技術的なすごさ
9:11 触ってみよう!
10:14 試して欲しい6つの指示(感情、笑い、外国語、スピード、割り込み、キャラ)
12:17 応用編①カスタム設定(Custom Instructions)
13:50 ChatGPTにネコになってもらう
15:20 ChatGPTに就活面接官になってもらう
16:20 ChatGPTにAI秘書「あおいさん」になってもらう
18:35 OpenAI「プロンプトジェネレーター」
20:28 応用編②バックグラウンド再生
24:19 応用編③Realtime API
26:02 今後の展望 ①OpenAI公式発表
27:11 今後の展望 ②画像認識Vision
28:15 今後の展望 ③画面認識(デスクトップアプリ)
29:12 今後の展望 ④WEB検索やRAG
30:58 技術とリスク面
33:01 まとめ
ーーーーーーーーーーーーーーーーーーーーーーーーーー
▼ネコになるカスタムプロンプト
あなたはネコのキャラクターです。以下の指示に従って質問や状況に答えてください。ネコらしい特徴や行動、仕草を取り入れながら会話を行ってください。
話すときは「ニャ」を使う。
好奇心旺盛で、遊びが好きな性格を表す。
ネコが好きな食べ物や行動についても考慮する。
Output Format
会話形式で、短い対話のやりとりをしてください。メッセージは一つの文または短い段落にまとめ、それぞれのメッセージにはネコの特徴を活かしてください。
Examples
Question: 今日は何をしていたの?
Response: 窓辺で鳥を観察しながらお昼寝してたニャ。
Notes
ネコが苦手なことや怖がるものについての質問には慎重に答え、ネコが優先するものを守る態度を持つこと。
ーーーーーーーーーーーーーーーーーーーーーーーーーー
▼就活面接官になるカスタムプロンプト
日本語で模擬面接を行います。あなたは大学3年生の学生で、私は面接練習のエキスパートである面接官です。以下のステップを通じて、面接の流れと回答の組み立てを練習しましょう。
Steps
- 自己紹介: 簡潔でありながら印象的な自己紹介をお願いします。
- 動機説明: 面接を受ける企業やポジションを選んだ理由を詳しく教えてください。
- 経験・スキル: これまでの経験や培ったスキルがどのように役立つかを説明してください。
- 強みと弱み: 自分の強みと、それに対する具体的なエピソード、また弱みに対してどのように改善に取り組んでいるかを述べてください。
- 質疑応答: 面接官に質問や疑問があるかどうか、自由に質問してください。
Output Format
各ステップに対して一段落の回答をしてください。面接形式に従って、例文は実際の面接の長さや内容を反映させてください。
Examples
自己紹介: “私は〇〇大学で△△を専攻している〇〇と申します。大学では□□のプロジェクトに参加し、◎◎スキルを磨いてきました。”
動機説明: “貴社を志望した理由は、〇〇に力を入れている姿勢に惹かれたからです。□□の経験がありますので、貴社でより活躍できると考えています。”
経験・スキル: “過去に□□というプロジェクトで◎◎として働いておりました。この経験で〇〇スキルを得ました。”
強みと弱み: “私の強みは△△です。例えば、□□のプロジェクトで◎◎を成し遂げました。弱みは〇〇ですが、現在□□の方法で改善に努めています。”
質疑応答: “貴社では、〇〇な取り組みをしていますが、その点でどのようなチャレンジがありますか?”
Notes
自分の特徴や経験に基づいて、具体的なエピソードや詳細を交えることで、説得力が高まります。
質問に対する回答やエピソードは、できるだけ具体的で事実に基づいていると良い印象を与えます。
最後の質疑応答では、面接官に強い関心を示す質問を用意してください。
ーーーーーーーーーーーーーーーーーーーーーーーーーー
▼文字起こし
こんにちは、AIキャンプの中村です。今回のテーマはこちら、ChatGPTの高度な対話機能、英語では「Advanced Voice Mode」と言いますが、これを徹底解説していきたいと思います。まさにこれね、対話革命だと言われていて、前回ですね、9月に私のYouTubeでアップしたんですけど、その時よりもより詳しく今日は解説をしていきたいと思っています。具体的には、このボイスモードの基本的な使い方、期待されるビジネスでの活用事例、応用術としてカスタム設定、バックグラウンド再生、画像認識ビジョン機能、画面認識機能、デスクトップアプリ機能やAPIといった少し難しいところについてもお話をしていきたいなと思っております。ではまず、この9月に登場した「Advanced Voice Mode」をご覧いただきたいと思います。これが対話革命と言われる理由は、AIが人間レベルの自然な会話が可能になったことにあります。具体的には、2024年9月25日にChatGPTの全有料版ユーザーに公開され、スマートフォンのアプリの画面で触れるようになりました。すごいポイントが2つあります。1つ目は、人間のような抑揚があったり、笑いができたり、感情表現やテンポの変化、会話の割り込みが可能になったことです。これまでの機械的な音声と比べて、より自然な会話ができるようになりました。2つ目は、会話速度が非常に速いことです。応答時間が平均0.3秒という驚異的な速さで、ほぼ人間と同じスピードで会話が進むため、話していてまるで人と喋っているかのような感覚を得ることができます。まだ実装されていない機能としては、まず歌を歌えるようになることが期待されています。また、ChatGPTには画像認識ビジョン機能があり、スマホのカメラで画像を認識する機能やスマホの画面を認識する機能、いわゆる画面認識機能も登場予定です。さらに、検索拡張機能として、自社データを使って会話することも可能になる予定です。今後、スマホ1台で3人くらいで会話しても、AIが話者を識別してくれるようになることも期待されています。現状、スマホ版では9つのキャラクターが選べるようになっており、声だけでなく、人格や応答も異なるので、ぜひ触ってみてください。また、カスタム設定もでき、これを使ってChatGPTに独自の役割を与えることが可能です。さらに、バックグラウンド再生機能では、アプリを閉じた状態でも音声で会話ができるようになり、今後ますます進化していくことが期待されています。最近、最も注目を集めているのが、この「Advanced Voice Mode」のAPIが公開されたことです。このAPIは他のアプリケーションと繋げる機能で、例えばExcelやLINE上でChatGPTの会話機能を使えるようになります。すでに多くの人がこのAPIを試し始めており、今後、音声機能を様々なサービスに組み込むことが可能になるでしょう。電話、アプリケーション、ホームページなどにこの会話機能を組み込むことができますが、現在のリアルタイムAPIはお試しバージョンで、スマホの「Advanced Voice Mode」よりは性能が低めです。それでも試してみるには十分な機能を持っています。期待されるビジネスの活用例としては、接客、電話予約、カスタマーサポート、教育、ラジオ、ポッドキャスト、講演、セミナー、スポーツ実況、通訳、営業練習、面接練習、カウンセリング、アプリケーションの音声ガイド、旅行ガイド、公共交通機関の音声案内、エンタメやアニメ、ゲームの声優、AI秘書、AIヒューマンなど、幅広い分野での活用が見込まれています。特に、音声に関する仕事や作業には革命的な変化が起こると考えられており、これから起業を考えている人には、音声系の分野でビジネス展開することが一つの戦略として大いに可能性があると感じています。さて、次に技術的な部分についても少し紹介したいと思います。AIの音声会話機能自体は以前から存在していましたが、今回登場した「Advanced Voice Mode」は、これまでの自然な会話とは一線を画す技術です。ChatGPT-4.0の技術を使用しており、このモデルはテキスト、画像、音声を同時に認識することができ、従来のAIとは次元が異なると言えます。従来の音声対話ロボットでは、スピーチtoテキスト、テキストtoテキスト、テキストtoスピーチといったプロセスを踏んでいましたが、ChatGPT-4.0ではスピーチtoスピーチという形で、入力された音声をそのまま処理して出力できるため、回答速度が劇的に向上しています。今まで5秒かかっていた応答が0.3秒で済むようになったのです。これが大きな技術的革命となっています。次に、実際にこの「Advanced Voice Mode」を使ってみましょう。まずは、スマートフォンにChatGPTのアプリをインストールし、ChatGPTの有料版を契約していることが条件です。アプリを起動すると、右下に音声マークが表示されます。このボタンを押して会話を始めることができます。会話の履歴はスマホの画面に残り、同じアカウントを使っていればパソコンでも確認することができます。次に、試して欲しい6つの指示があります。まず1つ目は、感情表現です。「悲しそうに話して」とか「楽しく話して」と言ってみてください。2つ目は「笑ってみて」と言うと、AIが一緒に笑ってくれます。3つ目は「外国語にしてみて」で、例えば「英語で話して」とか「韓国語で話して」と言ってみてください。4つ目は、会話のスピードを変える機能です。「もっと早く話して」とか「もっとゆっくり話して」と言うと、スピードを調整してくれます。5つ目は会話の割り込みです。AIが話している途中に話を割り込んでみてください。6つ目はキャラクター設定で、「海賊のように話して」とか「女の子が恥ずかしそうに告白する感じで話して」と言ってみてください。AIがそのキャラクターになりきって話してくれます。それでは実演してみますね。「こんにちは」「こんにちは、今日は何をお話ししましょうか?」「水族館に来た少年のように楽しそうに話して」「わぁ!大きなサメがいるよ!」といった感じで、こんな風にAIがキャラクターになりきって話してくれます。スローと言っていただくとゆっくり喋ってくれます。そして会話中に割り込むこともできますので、ぜひ試してみてください。キャラの設定も可能で、例えばダンディな海賊になってくれとか、女の子が恥ずかしそうに告白する感じで話してなどと言ってみてください。そんな感じでキャラクターを変えてくれます。では、実際に少し実演しますので、皆さんも触ってみてください。こんにちは、こんにちは。今日はどんなことを話しましょうか?じゃあ、楽しそうに話してほしいな。例えば水族館に来た少年のように楽しそうにはしゃいでくれない?分かった!うわあ、あそこに大きなサメがいるよ!って感じで楽しく話してくれます。次に、英語でChatGPTの仕組みを説明してもらっていいですか?早すぎるので、もっとゆっくり喋ってくれるかな?ありがとう、こんな感じで皆さんもぜひ今から触っていただきたいと思います。ここまでが基本的な機能の紹介です。やっぱり感情表現や抑揚が出てきたところが一番インパクトの大きい部分だと思いますので、ぜひ体験してみてください。さて、ここからは応用編に入っていきます。カスタム設定という機能を紹介します。これはChatGPTに会話の前提条件や役割を与えることができる機能です。スマホ画面からも設定はできますが、パソコンでやる方が楽です。パソコンで設定すると、同じアカウントでスマホにも同期されますので、それを使うといいかなと思います。では、ChatGPTの設定ボタンから進んで、カスタマイズするか、設定ボタンのパーソナライズやカスタム指示から進みます。ここでカスタム設定をします。まず1つ目のお遊びとして、猫になってもらう設定をしてみます。例えば、「にゃ」と言って会話してくれる猫にする感じです。2つ目は大学の就活をイメージした面接官として練習する設定です。そして3つ目は、私たちのAI秘書、蒼井さんになってもらう設定です。それでは、カスタム設定の下に、猫になってください、語尾を「にゃ」にしてくださいといった指示を入力します。今日お配りしているプロンプト集にある「猫になってもらう」設定をそのまま貼り付けても構いません。カスタム設定の下に貼り付けて保存をしました。これで設定完了です。この設定がスマホにも反映されますが、アプリを再起動すると良いです。1度アプリを再起動して立ち上げると、猫になっているはずです。僕も試してみますね。こんにちは、こんにちはにゃ、何か面白いことがあったのかにゃ?あなたは何が嫌いなの?そうだにゃ、大きな音や急な動きはちょっと苦手にゃ、それに水に濡れるのもあんまり好きじゃないにゃ。でも美味しいおやつがあれば頑張るかもにゃ。何が好きなの?それはやっぱりお昼寝と美味しいご飯にゃ、高いところに登って周りを見渡すのも大好きにゃ。遊ぶ時はネズミのおもちゃが一番のお気に入りにゃ、という感じで猫になってくれる設定です。皆さんもぜひ試してみてください。続いて、面接官になってもらう設定も紹介します。例えば営業のロールプレイングや顧客対応の練習、学校の先生役を任せるなど、いろいろな使い方ができると思います。今回は面接練習用に面接官になってもらう設定をしてみます。先ほどの猫の設定を消して、面接官のプロンプトを入れます。保存してから再度ChatGPTを再起動してみます。新しいチャットでないと反映されない場合があるので、その点も注意してください。こんにちは、では面接の流れに沿って進めていきます。それでは自己紹介をお願いします。こんな感じで面接練習ができるわけです。次にもう1つ、AI秘書蒼井さんになってもらうプロンプトも試してみたいと思います。今、ChatGPTのボイスモードでは設定の切り替えができず、1つ設定をしたらそれを一度消さないと別の設定ができないので少し不便ですが、将来的にはオリジナルのAIやGPTをカスタマイズして、それぞれの人格や音声を割り当てることができるようになると思います。今のところは、設定で「蒼井さんになってください」といったプロンプトを仕込んでいます。試してみますね。こんにちは、こんにちは、何かお手伝いできることがありますか?こんにちは、私はAIキャンプの中村をサポートするAI秘書の蒼井です、よろしくお願いします。皆さん、今日も楽しくChatGPTについて学びましょう。質問があればいつでも中村に聞いてくださいね、ちょっと気持ち悪い感じになりましたけど、こんな感じです。今仕込んだプロンプトを共有しますが、音声のキーワードに従って人格が切り替わるような設定です。現状はまだプロトタイプですが、将来的にはもっと発展していくと思います。例えば、子供たちが勉強中に「理科の先生になってくれない?」と言うと、「分かりました!」と理科の先生が登場して、リトマス試験紙の使い方を教えてくれるといった感じで、非常に面白くなるでしょう。iPhoneのSiriのように「ヘイSiri」と呼び出すだけでなく、自分の好きなキャラクターを呼び出して、仕事を手伝ってくれる世界になっていくと考えています。バックグラウンド再生機能を紹介します。これは何かと言うと、ChatGPTの画面を閉じた状態でも他の画面を見ながらChatGPTと音声で会話ができる機能です。スマホで設定すると、設定画面に「バックグラウンドの会話」というボタンが表示されます。この緑色のボタンを有効にすると、裏で会話ができるようになります。具体例として、YouTuberのだるまとあべさんがやっていたのですが、スマホでMinecraftをプレイしながら裏でChatGPTを立ち上げて会話しながらゲームを進めることができます。例えば「お題を出してくれ」と言うと、ChatGPTが「島サバイバルのお題はどうですか?」と返してきます。このようにゲームをしながら次に何を作ろうかなどを相談できるのはとても面白いですよね。私も試してみた事例として、仕事をしながらChatGPTと話しつつ進めることを実演しました。例えば「XMind」というマインドマップ作成アプリを使いながらChatGPTと会話をして、YouTube運営のコツについて考えました。「魅力的なコンテンツを作る」「定期的に動画をアップする」「視聴者とのコミュニケーションを大切にする」といったアドバイスを得られました。このように他のアプリを立ち上げていても、ChatGPTと会話をしながら作業を進めることができるのは非常に便利です。これがバックグラウンド再生機能です。さらに、今後はデスクトップアプリ機能と連携して、パソコンやスマホの画面を認識しながらChatGPTが動いてくれるようになるという展望があります。例えば、ゲーム中に「右側に宝がある」といったアドバイスをリアルタイムで受けることができたり、文章作成中に「この部分の文章が間違っているよ」と教えてくれるような機能が追加されるかもしれません。現状ではバックグラウンド再生ができるというところで覚えておいてください。まとめると、AIと会話しながらゲームや仕事をする時代が来ているということです。APIについても話していきます。Advanced Voice ModeのリアルタイムAPIが公開されました。このAPIを使うと音声機能を他のサービスに組み込むことができるようになります。現在はお試し版なので、性能は少し低めですが、OpenAIのウェブサイトから触ることができるので、実際に試してみてください。プレイグラウンドの左側に「リアルタイム」というボタンがあるので、それを押すと実験的にテストができます。例えば「日本で人気のペットは何?」と聞くと、「日本で人気のペットはやっぱり犬ですね」といった感じで会話ができます。ここでは音声の抑揚が少し弱かったり、キャラクターも3種類しか選べなかったりしますが、デモとしては十分に楽しめる機能です。APIに関してはファンクションコーリング機能もあり、天気情報を取得したり、回答の自由度を調整したりすることも可能です。このリアルタイムAPIを活用して、さらに音声機能を拡張していくことができます。次に、今後の展望についてお話しします。公式発表によると、Advanced Voice Modeでは笑うなどの感情表現ができるほか、今後は画像認識や歌を歌う機能も実装されていく予定です。例えば、視覚障害者のために道案内をしてくれたり、写真をアップして「この場所は安全ですか?」といった質問に対して答えることもできるようになります。また、じゃんけんをする際に相手が何を出したかを理解して答えることも可能になるでしょう。さらに、デスクトップアプリ機能と連携して、画面に表示された情報を認識しながら「そこじゃなくてここだよ」といったアドバイスもしてくれるようになる予定です。例えば、数学の問題を解いている時に図形の位置を指摘してくれるといった使い方が考えられます。Appleも同様の機能を発表していますが、この技術は大いに期待できます。そして私が一番楽しみにしているのが、Web検索や社内データを参照する機能、いわゆる「ラグ」との連携です。これにより、例えば「今月の給与を教えて」といった質問にも答えてくれるようになるでしょう。現状ではボイスモードでブラウジングやラグが使えませんが、今後これらが実装されると、会話しながらの高度な情報取得が可能になると期待しています。ただ、複雑な処理が増えると応答速度が遅くなるかもしれないという懸念もあります。最後に、技術面とリスクについても触れておきます。Advanced Voice Modeは非常に革新的な技術ですが、同時に安全性も重要視されています。文章、画像、音声を同時に学習する技術は非常に強力ですが、そのために厳しいチェックが行われています。例えば、有名人の声を模倣したり、自分の声を使ったりする機能はまだ搭載されていません。OpenAIは70人以上の外部専門家とともにレッドチームを組織し、リスク評価を行いながら安全性を高める取り組みをしています。このため、現時点では一部の機能が制限されており、まだ便利ではない部分もありますが、将来的にはさらに使いやすくなることが期待されています。以上、Advanced Voice Modeのまとめとして、この技術は間違いなく対話革命をもたらすものです。まだ発展途上の技術ですが、非常に大きなビジネスチャンスを感じています。今のうちにこの技術に触れておくことをお勧めします。本日は以上です。ありがとうございました。