OpenAIの「新・音声認識&音声合成モデル」がとっても便利なので紹介します【OpenAI.fm】

OpenAIの「新・音声認識&音声合成モデル」がとっても便利なので紹介します【OpenAI.fm】

今回はOpenAIから新たに登場した「音声モデル」について紹介します。音声認識、音声合成のモデルの両方が登場し、これまでよりはるかに高精度で音声を活用できるよう進化しました。また、「OpenAI.fm」というサイトで、実際に音声合成を試すことができるので、今回はその活用例を実演します。

▼OpenAI.fmのサイト
https://www.openai.fm/

▼目次
0:00 はじめに
1:14 OpenAIの新音声モデルの解説
3:39 OpenAI.fmを触ってみよう
5:57 OpenAI.fmでいろんな音声を作る
10:19 まとめ

▼文字起こし

めっちゃ受ける ちょっと待って待って待って、嘘でしょ?なんでそうなるの こんにちはこんにちはこんにちは こんにちは こんにちはこんにちはAIキャンプの中村です。今回はOpenAIから新しく登場した音声モデルGPT-4 Mini TTSを紹介するよ。誰でも無料で簡単に試せるからぜひやってみてね。こんにちはAIキャンプの中村です。今回はOpenAIから新しく登場した音声モデルについて紹介させていただきます。こちらですね2025年3月20日に発表されたものになりますので、こちらのページをちょっと翻訳して解説していきたいなと思います。APIに次世代オーディオモデルを導入ということになります。音声エージェントを強化する新しいオーディオモデルスイートが世界中の開発者に利用可能になりましたということになります。今回は開発者向けのツールだけではなくてopenai.fmっていうサイトから、こんな感じで誰でも無料でやることができます。今ね冒頭で挨拶したセリフは、こちらでこんな感じでテキストで入力すると簡単に再生ができるというものになっています。まずこれの解説を少ししていきたいなと思います。OpenAIはオペレーターディープリサーチコンピューターズエージェントなどいろんなことをやってきたわけですけど、エージェントが本当に役立つためには人々がテキストだけではなく自然な話し言葉を使用して効果的にコミュニケーションすることが必要だということで、今回このオーディオモデルというものを導入したそうです。いろいろ書いてありますけど結局何かっていうと、新しい音声テキスト変換モデルとテキスト音声変換モデルの2つがリリースされたということです。つまり文章から音声を作るモデルと音声から文章を作るモデルの2つが新しく新バージョンとして登場しましたよということです。この音声から文章が作れると、例えばどういうことができるかっていうと、コールセンターの仕事とか会議の議事録の文字起こしとか、そういうことができるということですね。一方で文章から音声を作ることができると、例えばカスタマーサービスの音声を作ったり、ナレーションですね。私のやってるこのYouTubeとかラジオとか、あるいはニュース番組みたいなナレーションとか教育動画とか、いろんなものを作ることができますよということです。音声をテキストに変換するモデルとしては、今までWhisperっていう文字起こしのモデルがあったんですけど、今回新しくGPT-4 Transcribe、あとは高速バージョンのGPT-4 Mini Transcribeっていう2つのモデルが出てきてるということです。そしてテキストを音声に変換するモデルはGPT-4 Mini TTS、テキストを音声に変えるモデルになっています。今回どなたでも触れるモデルってのがこのGPT-4 Mini TTSになりますので、早速使ってみたいなと思います。ちなみに音声を作ってしまうので、例えば詐欺みたいないろんな犯罪とかにも使われる可能性があるんですよね。今後はより自分たちの音声を作成したようなパーソナライズされたカスタム音声を作ることができるようになるそうなんですけど、このあたりは安全性をしっかりと確認した上でリリースするとOpenAIは発表しています。では今回注目のopenai.fmっていうこちらのサイトで音声生成をやってみましょう。そうするとこんな感じのページに入ります。英語でちょっと読みづらいなと思う方はこちらのページを翻訳してあげれば大丈夫です。操作の仕方はとっても簡単です。こちらで好きな声を1つ選んでいただいて、好きな雰囲気を選んでいただくか、ここに実際に自分で入力することもできます。ここに何かしらの原稿を打ってあげればいいですよということです。今回はまず試しということでコーラルさんという人の音声で、スポーツコーチの雰囲気で「こんにちは」って話してもらおうかなと思います。では再生してみたいと思います。「こんにちは」。こんなに簡単に自然な音声を作ることができるということですね。音声をちょっと変えてみますか。「こんにちはこんにちはこんにちは」。こんな感じで音声を変えることもできますし、迷ったらここでシャッフルボタンを押してあげればいいかなと思います。チアリーダー風で「こんにちは」言ってもらいましょう。「こんにちは」。サンタさんですね。「こんにちは」。ニューヨークのタクシー運転手って何なんだろう。「こんにちは」。こんな感じでやるということです。ここに文章を打つこともできます。例えば「落ち着いた雰囲気で」って打ってみました。「こんにちは」。はい、「こんにちは」って落ち着いた雰囲気で話すことができました。ここから音声ファイルをダウンロードしたり他の方にシェアするってことで、操作はこれだけになります。あとは皆さんがこのあたりをポチポチいじって遊んでいただければ全然いいかなと思います。今回のアップデートで何が1番いいかなっていうと、やっぱりハードルがすごい下がりましたよね。こんな感じでポチポチ押してあげるだけで簡単に音声が作ることができるので、今までだったらプログラムのコードを書いてこういうことを埋め込んだりとかしなきゃいけなかったんですけど、こちらのサイトではものすごい簡単に試すことができるので、皆さんもやってみてほしいなと思います。もう1つ今回のアップデートで素晴らしいのは、会話の抑揚ですね。じゃあこんな文章を読ませてみたいなと思います。「ふふふめっちゃ受けるみたいなこんな文章」をちょっと打たせてみたいなと思います。「ふふふめっちゃ受けるふめっちゃ受ける」。はい。「めっちゃ受ける」。あ、いいですね。これ昔話のコーラルさんは相性いい感じですね。もう1回。「めっちゃ受ける」。ちょっとさっきと変わりましたかね。もう1回見ましょうか。「めっちゃ受ける」。すごいですよね。普通に電話とかで話されたら気づかないですよね。AIって。「めっちゃ受ける」。じゃあもうちょっと違う文章打ってみようかなと思います。「ちょっとちょっと待って待って待って待って嘘でしょ?なんでそうなるの」。すごいですね。アニメのワンシーンみたいなこともできますね。じゃあちょっと適当に音声選んでやってみようと思います。「I’m sorry I can’t assist with that request」。たまにうまくいかない時ありますよね。「ちょっとちょっと待って待って待って待って嘘でしょ?なんでそうなるの」。 「ちょっとちょっと待って待って待って待って嘘でしょ?なんでそうなるの」。いいですね。「ちょっとちょっと待って待って待って待って待って嘘でしょ?なんでそうなるの ちょっとなって待って待って待って嘘でしょなんでそうなるの」。すごいですね。抑揚がめちゃめちゃ面白いですね。「ちょっとちょっと待って待って待って待って嘘でしょ?なんでそうなるの」。いいですね。では最後に桃太郎の最初の冒頭のセリフをちょっと喋ってもらおうかなと思います。「昔あるところにおじいさんとおばあさんが住んでいました。おじいさんは山へ芝刈りに、おばあさんは川へ洗濯に行きました」。おお、いいですね。じゃあちょっと今回は誠実なナレーションみたいな感じで喋ってもらおうかなと思います。「昔あるところにおじいさんとおばあさんが住んでいました。おじいさんは山へ芝刈りに、おばあさんは川へ洗濯に行きました」。お、いいですね。素晴らしい。じゃあちょっと簡単ですけどニュースのアナウンサー風に「元気よく」って打ってみようと思います。「昔あるところにおじいさんとおばあさんが住んでいました。おじいさんは山へ芝刈りに、おばあさんは川へ洗濯に行きました」。いいですね。ということでちょっとアナウンサー風とかラジオみたいな感じも得るっていう感じがしますね。じゃあちょっとスピードを調整してみたいので「早口で読んでください」って一文を入れてみました。「昔あるところにおじいさんとおばあさんが住んでいました。おじいさんは山へ芝刈りに、おばあさんは川へ洗濯に行きました」。ちょっと早口になったかなと思います。じゃあ「ゆっくり」とにしてみましょうか。いけるのかな?これは。「昔あるところにおじいさんとおばあさんが住んでいました。おじいさんは山へ芝刈りに、おばあさんは川へ洗濯に行きました」。すごいですね。ゆっくりちゃんと読んでくれてますね。「非常に早口で」これいけるのかな。「昔あるところにおじいさんとおばあさんが住んでいました。おじいさんは山へ芝刈りに、おばあさんは川へ洗濯に行きました」。ということでプロンプトで「早口」とか「ゆっくり」とかいろいろ言ってあげればかなり言ってくれますね。ちょっとここの口調も変えてみて「心を込めて感情的に非常に早口で」ってやってみようと思います。「昔あるところにおじいさんとおばあさんが住んでいました。おじいさんは山へ芝刈りに、おばあさんは川へ洗濯に行きました」。すごいなこれ。じゃあ1番最後これを「ゆっくり」にしてみますか。すごいな今なんか紙芝居とか聞いてるような感じでしたね。めちゃくちゃすごいですね。じゃあこれやってみましょう。「昔あるところにおじいさんとおばあさんが住んでいました。おじいさんは山へ芝刈りに、おばあさんは川へ洗濯に行きました」。うわすごいなこれ。いやあすごいですね。正直素人よりも全然上手じゃないかなと思うので、音声系のめちゃくちゃ進化してきたなって本当に感じました。ということでそれでは今回のまとめをこちらで話して終わりにしたいなと思います。それでは今回をまとめます。今回はOpenAIから新しく登場した音声モデルを紹介しました。特に文章から音声を作成する音声生成モデルはまるで人間かと思ってしまうほど自然な抑揚で話すことが可能になっています。すごいですね。今後はAIはテキストだけでなくより自然な会話もできるように進化し、より適切なコミュニケーションが取れるよう進化していくでしょう。音声系AIの発展に目が離せませんね。それでは今回は以上です。ありがとうございました。