【最新版】ChatGPT-5の画像認識「Vision機能」厳選活用術10選

【最新版】ChatGPT-5の画像認識「Vision機能」厳選活用術10選

今回は、最新モデルChatGPT-5の画像認識「Vision機能」の厳選活用術10選というテーマでお届けします。「ChatGPTの画像認識機能の使い方がよくわからない」「仕事や日常でどう活用できるのかイメージが湧かない」と感じていませんか?この動画を見ていただければ、最新AIの画像認識能力の凄さと、それをビジネスや日常生活で活用するための具体的なアイデアを手に入れることができますので、ぜひ最後までご覧ください。

▼目次
0:00 はじめに
0:12 ChatGPT-5の画像認識「Vision機能」とは?
1:41 厳選活用術10選の紹介
3:02 ① 場所を特定する「ここどこ?」
4:32 ② Excel操作方法を聞く「これって何?」
6:06 ③ 画像から文字起こし
10:32 ④ 牛乳パックをJSON化
12:14 ⑤ 化学式を解く
13:27 ⑥ テレビショッピング風のセールストーク作成
15:50 ⑦ 商品陳列からコンセプト・ターゲット像を分析
18:11 ⑧ 画像から物語を作成
19:21 ⑨ イラストからゲームを作成
21:34 ⑩ 食事のカロリーとPFCバランスを分析
25:19 まとめ

▼文字起こし

こんにちは、AIキャンプの中村俊也です。今回のテーマはこちら。ChatGPT×画像認識 厳選活用術10選、そんなテーマでお届けします。今回はChatGPTの最新モデルGPT-5で、画像認識のVision機能を厳選して10個紹介します。ChatGPTには画像認識機能、通称Vision機能があります。アップした画像の分析やテキストの文字起こし、創作やマーケティングまで本当に幅広く使えます。GPT-5になってさらに性能が向上しましたし、最近は無料ユーザーでも多く使えるようになり、この画像認識の技術が世の中に普及してきたと感じています。ちょうど1年ちょい前、以前のモデルGPT-4oが登場した時に「画像認識114選」という動画を出したのですが、さすがに今回も100個は大変なので、厳選して“これだけは押さえておきたい”10個を紹介します。注意点として、最新版のGPT-5は無料版より有料版の方が高精度です。さらに通常モードよりも推論モード「GPT-5 Thinking」を使った方が精度が上がります。無料版で試してうまくいかない場合は、有料版の推論モードがおすすめです。今回の10選は、「この場所はどこ?」「これって何?」といった質問系から、文字起こし、問題を解く、マーケティングやセールス、画像からの創作、そして最後は画像認識しながらPythonを動かす応用例まで網羅します。特に3番と10番は、タスクの精度を上げるために上位の推論モデルを使うのがおすすめです。基本はGPT-5のThinkingモードでOKですが、この2つは精度にこだわって取り組むと良いと思います。今日の内容を見ていただくと、画像認識がまさに人間に近づいていると感じていただけるはず。ぜひ最後までお楽しみください。このチャンネルでは、ChatGPTや生成AIに関する役立ち情報をお届けします。よければチャンネル登録もお願いします。ではやっていきましょう。まずはできるだけ“考えてくれる”Thinkingモードでいきます。1つ目は「この画像がどこかを当てる」。皆さんこれ、どちらかわかりますか?私は全然検討がつかなかったのですが、GPT-5に聞いてみます。画像を貼り付けて「ここはどこですか?」と質問。推論モデルなので少し回答に時間がかかりますが、最近の推論×画像認識はすごく、拡大しながら細部まで見てくれます。写真の一部だけを拡大して確認するなど、人間に近い見方でいろんな箇所を切り取ってチェックしてくれます。結果は「関西国際空港へ向かう連絡橋」で正解。お客さまからいただいた、関空に向かう時の写真だったそうです。特徴的なのでわかる人にはわかるのですが、私なら絶対わからない。こんなこともできる時代になりました。アップした画像がどこか、バレてしまう世界観でもありますね。すごい。続いて2つ目はビジネスで使える事例。とあるExcel資料の中に下向き三角のマークが出てきて、名前も機能もわからず検索も難しかった、という実際に困ったシーン。これをChatGPTに投げます。「この下三角って何?どうやるの?」と聞くと、これはフィルター機能、ドロップダウンリストとのこと。矢印をクリックすると、その列の値で絞り込みや並べ替えができるそうです。付け方はヘッダーを選択して[データ]→[フィルター]。実際に適当な文字を入れてヘッダーを選択し、フィルターボタンを押すと、はい、できました。こんなふうに仕事のやり方も教えてもらえます。続いて文字起こし。弊社で発行している冊子の文章、私が書いた原稿を画像から文字起こしさせてみます(Thinkingモード)。文字起こし(OCR)は以前は専用ツールが主流でしたが、最近はChatGPTやGeminiでも高精度です。結果を元画像と照合すると、URLは正しく、文章も多くは完璧。ただし「難しそう」が「怪しそう」になるなど、一部で勝手に言い換えが発生。完全に一字一句は再現されないことがあり、ここは課題です。プロンプト工夫やAPIパラメータ調整でも100%にはならず、結論として「プロモード」にすると満点の再現が出ました。「AIは難しそう」「うちの会社ではどう活用すればいいの?」といった表現も完璧。予想ですが、GPT-5のプロモードは内部で複数回チェックして誤りを潰しているのかもしれません。ということで、ChatGPTで文字起こしを高精度でやりたい場合はプロモード推奨です(私は使いすぎて回数制限に達しました…)。ミスが許されない用途ならプロモードにする、他の文字起こしツールを使う、人がチェックするなど運用で担保してください。ちなみに文字起こし精度はGoogleのGeminiも素晴らしく、Gemini 2.5 Proでの文字起こしも満点の結果が出ました。毎回必ず満点というわけではなくプロモードより若干劣る印象ですが、圧倒的にスピードが速いので、文字起こしに関しては正直Geminiの方が強いという印象です。続いては牛乳パックをJSON化。栄養成分表示をコンピューターが読みやすいJSON形式に変換します。画像をアップして「この栄養成分をJSONにしてください」。内容量200mlあたり、エネルギー137kcal、たんぱく質6.8g…といった表記を、きれいにJSONへ変換できました。写真や紙の情報を、機械可読なデータに一発変換できるのが良いところ。例えばロボットやカメラにChatGPTの画像認識を載せれば、瞬時にJSONのようなデータへ変えられます。日常では英語表示を日本語に翻訳するなど、海外旅行でも活躍します。続いて化学式の正誤判定。私の汚い手書きで分子式を4つ書き、合っているかを判定させます。答えは、H2Oは水、CO2は二酸化炭素で正解、NH3はアンモニア、そして顔のついたCH3はフェノールではなくトルエン。つまりCO2だけ正解、他は誤りというのが狙いでしたが、GPT-5はしっかり判定できました。GPT-4oの頃は間違うことも多かったのですが、大きく進化しています。テスト問題やノートの文字起こし・判定もサクッと終わる時代が来ると嬉しいですね。続いてテレビショッピング風のセールストーク文の生成。ここに握力グリップがあります。テレビショッピングのプロとして、画像の製品について超魅力的なトーク文を500文字程度で、と指示。視聴者の注意→特徴→利点→証拠→行動喚起というノウハウも明示します。すると「あっという間」に生成。例えば「強靭なスチールスプリングが生み出す絶妙な抵抗感」といったフレーズ、私にはなかなか書けません。さらに画像のハニカム(六角形)グリップを正しく認識し、根拠ある表現に落とし込んでくるのがすごい。商品画像から説明文やセールストークを作る、といったことが簡単にできます。次はビジネス・マーケティング系。東急ハンズさんのバレンタイン時期の陳列画像をアップし、「この商品陳列のコンセプトやターゲット像をできるだけ深く分析して考察してください」と指示。キャッチコピー「バレンタイン ファニー ポップ スイート」から、従来のロマンティック路線ではなく、カラフルでポップな楽しさを強調していると読み解き、恋愛の甘さより楽しさ・可愛さ、SNS映え、自分用・友チョコ・義理チョコにフィットするポップアップ的構成などを提示。ターゲットは10〜20代の学生・若年層が中心、といった納得感ある分析が出ます。高級志向の百貨店系とは真逆の戦略という示唆も。ここまで言語化できる人は少ないので、ぜひ活用してほしいポイントです。続いては画像から物語生成。うちの子どもたちが遊んでいるシルバニアファミリーのうさぎとプラレールの写真から「ドキドキワクワクする楽しい物語を作成」。タイトル「小さなうさぎたちと黄色い特急列車の大冒険」。セリフも入り、「お姉ちゃん、危ないよ」「次はどこに行くのかな?」といった感じで、クリエイティブな文章表現が得意なのを実感します。皆さんも手元の写真で試してみてください。さらにクリエイティブに、手描きの“シューティングゲームっぽい”画像から実際のゲームを作らせます。まず画像からゲームの要素を言語化→次にPythonコードのスクリプトを生成、という二段階指示。GPT-5は「典型的な縦スクロール型シューティング」「プレイヤーは画面下部の三角形、上向きに弾を発射」「敵は上部から降下し、弾が当たると破壊」と正しく理解。提示されたPythonコードを実行すると、三角形の自機と敵、スペースキーで弾が出るシンプルなシューティングが動きました。画像を渡すだけで、コードを書かずにゲームを作ることも可能です。前回の動画では数時間かけて改良した版もあるので、ぜひそちらもご覧ください。最後は食事の分析。粗い食事画像を分析し、栄養評価に加えてPFCバランス(たんぱく質・脂質・炭水化物)も計算させます。ChatGPTは計算がやや苦手なので、Python(コードインタープリター)を併用します。Thinkingモードで画像をアップし、「あなたは優秀な管理栄養士。①画像からメニューを整理、②コードインタープリターでカロリーとPFCを計算、③表に出力。私は減量中でたんぱく質多めが理想。理想値との誤差、助言、改善提案まで」と指示。結果、白ご飯、わかめの味噌汁、肉じゃが、ほうれん草のおひたし、納豆、といったメニュー認識に基づき、カロリー約615kcal、PFCの推定値、理想との差分、アドバイスまでテーブルで提示。一般的な家庭料理の標準値から仮説を立てており、精度も実用的。助言は「たんぱく質が不足、脂質がやや多め。ご飯を少し減らし、鶏むねや蒸し鶏、焼き鮭、絹ごし豆腐を追加。味噌汁に具材追加、肉じゃがは赤身に変更、納豆に卵で+6g、 おひたしにかつお節・ツナ(水煮)を」など具体的。人間が中にいるのでは?と思うほどのきめ細かさです。なお、これは画像認識とコードインタープリターの組み合わせなので、有料版の推論モード推奨です。以上、10個の活用術でした。いかがだったでしょうか。ChatGPT-5の画像認識・Vision機能は、GPT-4oからの進化が毎日触っている人ほど実感できると思います。これまで弱かった部分やいまいちだった回答が、かなりできるようになってきました。今後はこの画像認識がメガネやロボットにも搭載され、社会が大きく変わるはず。ぜひ今のうちに実際に触って慣れておくことで、未来への備えにしていきましょう。今回は以上です。ありがとうございました。