【ガチ考察】ChatGPTvs人間!生成AIが作る文章の限界と可能性に迫る! ~重要キーワード「推論・創造・体験・マルチモーダル」を深堀りします~

【ガチ考察】ChatGPTvs人間!生成AIが作る文章の限界と可能性に迫る! ~重要キーワード「推論・創造・体験・マルチモーダル」を深堀りします~

今回は、ChatGPTと人間の文章力を比べながら、生成AIが作る文章の可能性と限界について深掘りします!
ChatGPTは、単に言葉をつなげているだけでなく、人間を超えるレベルの「高度な言語理解力」や、「推論能力」、新しいものを生み出す「創造性」など、驚異的な能力を持っています。人間の優位性が、多くの領域で揺らいでいます。一方で、ChatGPT、Gemini、Cluadeなどの生成AIが作る言葉には、「体験」や「感情」がありません。これこそが、AI文章の弱点・限界であり、同時に人が書く文章の強みとなります。
また、最近のGPT-4omniなどのAIが「マルチモーダル学習」をしていることや、「AIが独自の世界観を作り始めている」ことにも触れます。
やや難しいテーマですが、AI時代に大きく差をつける内容になっていますので、ぜひ最後までご覧ください。

▼目次
0:00 はじめに ChatGPTや生成AIの文章の限界と可能性
4:12 生成AI文章を5つのレベルで考えます
4:39 ①生成AIは文章をつなげている(→哲学的ゾンビ)
5:51 ②生成AIは高度な言語理解力を持つ(例:sympathyとempathy)
8:08 ③生成AIは推論能力を持ち始めている(例:ユニコーンの絵)
10:27 ④生成AIは創造性を持ち始めている(例:素数をシェイクスピア風に証明)
12:22 ⑤生成AI文章には、体験や感情が伴わない(例:トマトは美味しい! シンボル・グラウンディング問題)
14:55 人間VS ChatGPT 未来に向けてAI文章とどう向き合うか?
16:25 生成AIの発展に必要なマルチモーダル学習
20:27 まとめ ChatGPTや生成AIの文章の限界と可能性

▼参考にした書籍
①ChatGPTの頭の中
②2080年への未来地図
③松岡まどか、起業します AIスタートアップ戦記

▼文字起こし

こんにちは、AIキャンプの中村です。今回のテーマはこちら、「生成AIが作る文章の限界と可能性に迫る」、こんなテーマでお届けします。今回はChatGPTなどの生成AIが作り出すAI文章の本質に迫っていきたいと思います。今回の動画は超初心者向けというよりは、生成AIについてより本質的な理解を得たいという方向けの内容となっております。そのためやや難しい内容がありますが、その分他の方と比べて圧倒的に差をつけるそういう視点を身につけることができますので、ぜひ最後までご覧ください。まず入門編としてChatGPTは言葉をつなげる機械であるっていうのは、ここは皆さん大丈夫かと思います。「昔々あるところに」って打つと、1番確率の高そうな言葉「おじいさんとおばあさんが住んでいました」っていうね、こういう回答が返ってくるわけです。ただですね、ある程度ChatGPTなど触っていると、この「言葉をつなげる機械である」っていうこの表面的な説明だけでは納得できなくなるんじゃないかなと思います。ChatGPTは単に言葉をつなげるだけじゃないぞ、もっと深い回答を出してるんじゃないのかな、みたいな感じで大きな期待を抱く方もいらっしゃると思います。一方でChatGPTの文章って確かにすごいんだけど、なんかね人間の言葉に比べるとどうしても違和感があるというか、なんかうさん臭いんだよね、みたいな感じでAI文章にネガティブな感覚を持ってる方も多いんじゃないかなと思います。でこの2つの疑問は実はですね、どちらも正しいですし、この疑問こそがAIの本質に迫るところになります。実はChatGPTは単なる言葉をつなげる機械というだけではありません。人間のような高度な推論や想像的な表現も可能になってきているわけです。推論ってのは新しいことを予測すること、想像ってのは新しいものやアイデアを生み出すことですね。生成AIを語る上でこの推論と想像の2つの能力ってのはもう極めて重要なものになります。これを理解しないまま生成AIの能力を見誤ってる人がものすごく多いので、ここはしっかりと理解しなければいけないポイントとなります。そして2つ目ですが、生成AIの作る文章は体験や感情を伴った文章ではないっていうところもポイントになります。これこそがAIの弱点、あるいはAIの文章がなんとなくうさん臭いっていうところの正体と言えるんじゃないかと思います。で逆に言ってしまえば、ここを理解することで人間でしか書けない文章の強みってことが分かってきますので、この2つがね非常に重要になってくるわけです。そこで今回はChatGPTなどの生成AIが作る文章の限界や可能性について、推論、想像、体験などのキーワードを用いて深掘りしていきたいと思います。今回の動画を見ていただくと、生成AIが作るAI文章の本質が分かり、人にしか書けない文章やAIに負けない人間の強みは何かということについて考えることができます。またですね、これはちょっと難しいんですけど、最近GPT-4などのAIが文章だけではなくて画像とか音声とか動画も学習するように進化しているんですね。これ専門用語でマルチモーダル学習って言ってるんですけど、これはですねAIがより人間に近づくっていうね取り組みになりまして、ここはですねAIの未来を語る上でもう絶対に欠かせない視点になりますので、この辺りちょっと難しいですけどお話ししていきたいと思います。今日はややレベルの高い内容ですが、かなり差がつく視点なので、ぜひ最後までご覧ください。ちなみに今回はこちらの3つの書籍を参考文献としております。「ChatGPTの頭の中」「2080年への未来地図」そして「松岡、AIが起業します」ということで、AIの本質が分かるような3冊の書籍を元に私なりの独自の考察、解釈を踏まえてお話ししていきたいと思います。このチャンネルではChatGPTや生成AIに関する役立つ情報をお届けします。よければチャンネル登録もお願いします。それではここからはAIの文章を5つのレベルに分けて考えていきたいと思います。GPT、Gemini、Claudeなどの対話型AI、正確には大規模言語モデルなんて言いますけど、これらがね作り出す文章ってのを5つのレベルに分類して考えていきたいと思います。1つ目が確率モデル、2つ目が高度な言語理解、3つ目が推論、4つ目が想像、5つ目が体験や感情です。はいそれでは最も基本的な考え方がChatGPTは確率的な言語モデルだよということです。これはですね膨大なテキストデータから学習して次に来る確率が高い言葉をつなげるというものです。先ほど紹介した通り「昔々あるところに」って打つと「おじいさんとおばあさんが住んでいました」っていうね、こういう回答を出すというものになります。この能力によって人間らしい自然な回答が可能で、人間を超える知識量で回答ができるということになっております。で具体的にですね「市役所で働く魅力を子供向けに熱くスピーチしてください」って言うと、「こんにちはみんな、今日は市役所で働くことの魅力についてお話しします」みたいな感じですごく自然な文章を返すことができるんですよね。これがChatGPTの基本です。ただChatGPTは言葉の意味や感情を持つわけではありません。これはよくですねあの哲学的ゾンビなんて言うんですけど、周りから見ると見分けがつかないんだけど、中身はスカスカだって感じで、ゾンビのような存在だってことでこんな言葉が使われるんですけど、まず基本的な理解としてはChatGPTは確率的に言葉をつなげるものだと、でそれちょっとね悪い言い方で言うと哲学的ゾンビのようなものだということになります。1個レベルを上げたいと思います。高度な言語理解です。ChatGPTは単に言葉をつなげるだけじゃない、もっと深い回答を出しているのではって思ってる方、たくさんいらっしゃると思います。そうなんです、ChatGPTは単なる言葉の連鎖を超えた高度な言語理解能力を持っているんです。具体的にこちらの問題やってみたいと思うんですけど、日本語ではどちらも共感と訳されることが多い、シンパシーとエンパシーについて、この2つの意味の違いについて教えてくださいとChatGPTに聞いてみたいと思います。はいそれではChatGPTに質問して聞いてみたいと思います。はいちょっとこっちは消しますね。こんな回答が返ってきました。「シンパシー(同情)とエンパシー(共感)は、どちらも他人の感情に対する反応を表しますが、意味に微妙な違いがあります。シンパシー」と色々書いてありますが「その人の悲しみを自分自身のものとして感じるわけではない」と。で「共感は他人の感情まるで自分の感情であるかのように感じる能力を指します」ということです。すごいですね、かなり詳しく同情と共感がめちゃくちゃ分かりやすく説明してくれてますね。はいでこれでももうね十分すごいんですけど、さらに深く、もっと具体例を含めて教えてくださいって言ってました。そうするとですね、お見舞いの場面とか葬式の場面でこの同情っていうねシンパシーを使ってる、シーンとえ共感の場面のこの違いなんかも出してくれています。えっとちょっと長くなりますので読みませんが、こんな感じでまた非常にねこう説明が難しいシンパシーとエンパシーっていうこの2つの事例を、具体的な説明とか事例とかも出しながらこと細かに説明してくれているんじゃないかなと思います。これねなかなか人間でもここまで説明できる人っていないんじゃないかと思います。このようにChatGPTはもう辞書のレベルを超えて微妙なニュアンスの違いまでを説明できるということです。これはですね単に言葉の定義を暗記しているだけではなくて、それぞれの言葉が使われる文脈とか言葉に込められた感情的な側面まで理解してるんじゃないかと言われております。なのでChatGPTのような対話型AIは単なる言葉の連鎖を超えた高度な言語理解能力を持つってところが、非常に重要なポイントになります。はいそれではもう1つレベルを上げて推論という話をしていきたいと思います。ChatGPTは言葉をつなぐだけではなく推論、新しいことを予測するっていうことも可能になっています。例えばですけどGPT-4にユニコーンの絵を書いてもらうっていうことをちょっと考えたいと思うんですけど、GPT-4はテキストだけで学習したAIのモデルです。なので実際にこのユニコーンの画像ってのは見たことがないので、GPT-4が単に言葉をつなげる機械であるならユニコーンの絵は書けないはずなんですよね。じゃあGPT-4にユニコーンの絵が書けるかどうかちょっと聞いてみたいと思うんですけどね。「グラフィックを作成するための言語を使ってユニコーンを書いてください」ってお願いしました。そうするとですね、このChatGPTのGPT-4ですね、このようなコードを出してくれて、このコードをグラフィックを表示できるようなそのサイトにぶち込んであげると、こんな感じでパッとねユニコーンの絵が描けました。はい、えっとなんか可愛らしいというか、なんかすごいかかしてますが簡単なグラフィックになりますけど、これが一応ユニコーンでね、角があって馬のような形でなんか立ち毛があるみたいな書いてありますね。でここではですね、イラスト自体は大したことがないのでそこがポイントではなくてですね、GPT-4が1度も見たことがないユニコーンのイメージを自分で考えているっていうところがポイントになります。なので生成AIは単に言葉をつなぐ機械ではありません。こういう感じじゃないかなって自分で考えるような推論能力をもう持っているっていうね証明だと言っていいんじゃないかなと思います。でなぜこのような推論能力が大事かっていう話なんですけど、実はですねAIに高度な推論能力が搭載されるともう世界が変わるっていう風に言われています。実際にChatGPTに聞いてみると、高度な推論ができるようになると複雑な問題解決、例えば医学とか工学とか科学でいろんな問題が解決できますとか、意思決定の支援みたいな感じでもうAI自体が意思決定してくみたいな、そんなこともあり得るんじゃないかと言っています。で実際にですね、MicrosoftのCEOのサティア・ナデラさんはですね、「生成AIの本質は自然言語と推論の組み合わせにある」っていうぐらいね、あの推論能力は非常に重要なものになるということです。はいこれが一応レベル3の話でした。はいそれでは推論と並んでもう1つ考えたいのはこちらのChatGPTや生成AIの想像性になります。生成AIを使うことで人にはできないような新しいものやアイデアを生み出す可能性があるんだよっていう話です。で実際に以下のプロンプトを打ってみてChatGPTの想像性をちょっと体験してみたいなと思います。こちらはですね「素数が無限に存在することの証明をシェイクスピア劇のようなスタイルで書いてください」。で今回はね「中学生にも分かるように」とか「できるだけ難しい数式などを使用せず」みたいな指示を与えているので、さて素数の証明をシェイクスピア風に説明できるかやってみたいと思います。はいそうすると「舞台は中世の白野、大平原の真ん中に大きなテーブルがあり、そこに数学者たちが集まっている。王は王座に座っており、賢者としてエウクレイデスが立っている」みたいな感じで、シェイクスピアの劇みたいな状態が始まりましたね。「おお、エウクレイデスよ、そなたが言う素数が無限という話、語ってくれるのか。我らの国の若きたちにも分かるように」「はい、陛下。この謎は野の深い森のように広大なものです」。いいですね。「まず素数とは何かを思い出していただきたい」。素数とは…すごいですね、シェイクスピア風に素数が無限に存在することを証明してくれたということになります。このように数学的厳密さを保ちつつ、シェイクスピアのようなスタイルで回答ができていますよね。なのでこれは異なる分野の知識を組み合わせて新しい表現を生み出していると言っていいと思います。つまりChatGPTは単に言葉をつなぐだけではなく、もうこのような想像性を持っているんだってことをこれで分かっていただけたかなと思います。とてもねちょっと人間では出てこないような事例だったんじゃないかと思います。ではえ最後に体験や感情という話をしていきます。ここまでChatGPTは単に言葉をつなげるだけじゃない、高度な言語理解力、推論能力、想像性を持つっていうね話をしてきたわけなんですけど、しかし一方でChatGPTのような生成AIには大きな弱点と限界があります。それが何かと言うと、AIの文章には体験や感情が伴っていないっていうねこちらになります。例えばですけど「トマトは美味しい」とか「あなたが好きです」みたいな、こういう言葉ってあるじゃないですか。人間にとってこれらの言葉は単なる文字の羅列ではないですよね。実際にトマトを口にした時の味とか香りとか、あるいは告白する時の心がドキドキするようなああいう気持ちとか、経験を通じた実態験や感情と結びついた非常にこう複雑な言葉なんじゃないかなと思います。人間もAIもどちらも「トマトは美味しい」っていう文章を書くことはできます。ただ人間は実態験や感情から生まれた言葉を使うことができるのに対し、AIってのはあくまで確率的につないだ言葉にすぎないわけです。このギャップこそが人間とAIの言葉の大きな違いだと考えていただきたいなと思います。整理すると、AIが書く文章は体験や感情が伴っていません。AIが書く文章の違和感とかうさん臭さとか、あなんかちょっと偽物っぽい感じってのは、これが正体になるわけですね。これこそがAIが書く文章の弱点や限界だと私は考えています。逆に言えばAIの文章とたくさん触れることで、人間の言葉がいかに複雑で奥深いものかってものを再認識するきっかけに、少なくとも私はなりました。またこの体験感情っていうところがやっぱり人間の文章の強みじゃないかなと思っております。はいということでAIの文章を5つのレベルで考えていきました。生成AIは確率的に言葉をつなぐってとこが基本知識になります。ただそれで終わるだけじゃなくて高度な言語理解力を持っていたり、人間のような推論力を持っています。また想像性も持っていたりするわけですけど、ただ一方で人間のような体験とか感情が伴っていないので、例え人間と同じ文章を出せているとしても、その言葉には体験や感情が伴っていないっていうところになります。ということでいかがでしょうか。AIが書く文章っていうのね少しあの分かってきたんじゃないかなと思います。それでは続けて人間 vs ChatGPT、未来に向けてAI文章とどう向き合うかというお話をしていきたいと思います。それでは、これから皆さんが文章を書く上で重要なエッセンスを3つお伝えしていきます。まず1つ目、知識量や言葉を組み立てる力、これが人間とChatGPTどっちが優れてると思いますか。もうね膨大なデータから学習し、確率的に最も適切な言葉を選び出すというねこの点に関しては、もはやね私たち人間はAIに叶わないのかなと思っています。はいまここに関しては皆さん多分同意されると思うんですけど、問題はこの2番になります。推論能力と想像性です。私の考え方なんですけど、現時点ではやっぱりまだ人間が優位じゃないかなと思います。ただ先ほど紹介したような素数をシェイクスピア風に証明するみたいなように、AIは普通のね多くの人間には思いつかないようなすごいこうクリエイティブな回答もできるんですよね。ですので推論とか想像性においても人間の優位性ってかなり揺らいでいるんじゃないかと考えております。そして最後3つ目、体験と感情です。ここに人間らしい文章の本質があり、これこそが私たち人類が書く文章の強みだと思います。実際の体験や感情に基づいた言葉が皆さんが書く文章に深みと豊かさを与えるんだと思います。このようにAIが書く文章と人間が書く文章がどっちがどのように使っていくんだみたいなところも考えながら、これからの未来を見ていただきたいなと思います。はいそれでは最後にAIの発展に必要なマルチモーダル学習についてお話しさせていただきます。マルチモーダルAIっていうのは文章だけではなく画像とか音声とか動画なども扱うAIのことになります。最近ですね、ChatGPTとかGeminiなどの最新AIには画像認識とか画像生成、音声認識や音声生成、動画分析、そういった機能がどんどん登場しているかなと思います。今後はですね、これに加えてさらに匂いとか味とか食感とか、あとは手足なども搭載されるようなロボット化していくみたいな、そんな話もあったりします。でこのようにマルチモーダルになっていくっていうのは、AIがより人間に近づいていくようなものだと考えていただければいいかなと思います。実際にですね2024年5月に登場したGPT-4、これ正確には4Vに全方位って言うんですけど、これはですねそもそもマルチモーダル学習をしているAIになります。今までのAIのように文章とか音声とか映像を個別に別々に学習しているわけではなくて、それらを全て同時に学習したモデルだということです。で面白いことに同時に学習した方がAIのパフォーマンスって高くなるみたいなんですよね。でこれって考えてみたら当たり前なんですけど、例えばですけどトマトってこういうものなんだよってただ言葉で説明されるよりも、実際に見て触って食べた方が理解度が全然変わるわけじゃないですか。なのでChatGPTとかもテキストだけで学習するんじゃなくて、ちゃんとね映像とか音声とかも含めて学習させた方がパフォーマンスが上がるってのは、考えてみれば当然の話かなと思いました。でテキストだけで学習したAIが持つ世界観と実際の世界にはギャップがあると思ってください。この左側がAIが持つ世界観で右側が実際の世界だと思ってください。ここにはギャップがあるわけですね。なのでAIが学習するデータの中に画像とか音声などを含めて学習させることで、より実世界を理解したようなAIが登場していくっていう風に考えることができるわけです。ですのでこれからの時代にはこのマルチモーダル学習ってのはとっても重要な観点になりますので、今まで知らなかったよって方は、ぜひねこのマルチモーダル学習っていうところも抑えていただきたいなと思います。またちょっと余談になりますが、これからですね画像や音声だけでなく、嗅覚、味覚、触覚、そして手足とか内臓までつけてしまうと、さらにねAIってのは精度が上がるんじゃないかっていう風に言われています。こうドラえもんぽくなってくのかなと思うと、本当にねこう未来を見てみたいっていう気持ちになってきますね。そして最後に1つ重要なんですけど、ちょっと難しい話もしておきたいなと思います。AIは人間とは違う独自の世界観を持つという風にあの最近は言われております。これね難しいんですけどどういうことかって言うと、AIってそもそも私たち人間とは学習方法が違うわけですよね。なので育った環境が違えば持ってる世界観とか価値観も違うはずなので、AIは独自の世界観を持つんだと思います。さらに面白いんですけど、AIって人間には学習できないものも理解できるんですよね。例えば人の目には見ることができない赤外線とか、難しい振動を分析したり、あとは5次元空間とかってなるともうこれね人間にはパっと理解できないものなんですけど、こういうものもAIにはそろそろ理解できるということで、人とは違うような理解度を示す可能性があります。でまたですね学習環境も現実ではありえないようなバーチャル環境で学習させるみたいなこともできるんじゃないかなと思います。例えば車の自動運転を実際の道路を走らせるところで学習させるんじゃなくて、なんかこう地面がバーンって爆発したりとか、なんか途中ミサイルが飛んできたりとか、そういうめちゃくちゃな環境で自動運転を学習させた方が、もしかしたらパワーアップするかもしれないですよね。このように人間とは違う独自の世界観をAIは持ってくるんじゃないかということで、もうね言ってしまえば新しい世界が誕生するぐらいで、ちょっと気をつけていただいた方がいいかなと思います。はいそれでは今回の内容をまとめていきます。今回は生成AIが作る文章の限界と可能性というお話をさせていただきました。ChatGPTは単に言葉をつなげるだけの機械ではありません。人間を超えるような高度な言語理解や推論能力、想像性を持ち始めています。推論や想像性の面でも人間よりAIが優位になるかもしれないということで、ここが非常に注目のポイントになります。ただAIの文章には体験や感情が伴っていないってところが今回非常に重要なメッセージになります。これこそがAIの弱点、限界であり、同時に私たち人間が書く文章の強みになるんじゃないかと考えています。そしてAIはテキストだけではなく画像、音声などを含むマルチモーダル学習へと進んでいき、より人間に近づいてくるんじゃないかと思います。そして少し余談ですが、AIは人間とは異なる独自の世界観を作り上げていくかもしれないということで、今回の動画をまとめさせていただきます。はいで今回の内容かなり難しかったと思いますので、ぜひ1回で理解した気にならずにちょっと繰り返し見ていただいて、生成AIが作る文章の限界やこの可能性についてより理解を深めていただきたいなと思います。またですね、こちらの参考文献3冊もとっても面白かったので、ぜひ見ていただければなと思います。それでは今回は以上です。ありがとうございました。