生成AIでニコニコ動画風コメントを自動生成してみた|Gemini APIの画面認識OCRで実装!
今回はお遊び回です!生成AIを使って、「ニコニコ動画風のコメントを自動生成する仕組み」を作ってみました!3秒に1回スクリーンショットを撮り、それをGemini APIに渡して画面認識(OCR)と文章作成を実行し、PC画面の右側から流しています。AIエージェント(CursorやClaude Code)などを使えばサクッと作れるので、ぜひやってみてください!
▼目次
0:00 ニコニコ動画風コメントを作ってみた
3:42 実装の様子
5:00 Gemini APIの使用トークンや使用料金
7:00 エージェントと対話して修正する
9:39 活用例:Excelの画面にコメント
10:07 活用例:YouTubeの画面にコメント
10:59 活用例:ゲームの画面にコメント
▼文字起こし
こんにちは、AIキャンプの中村です。今回はお遊びということで、今この画面にある通り、ニコニコ動画っぽいコメントが流れてくるAIツールを作りましたので、実際に紹介していきたいと思います。何をしているかというと、GoogleのGemini 2というAIは画像も認識できるんですが、このパソコンの画面のスクリーンショットを3秒に1回など、時間を決めて読み取って、それに対してコメントを返してくれている、ということをやっているわけです。少し画面を変えてみようと思うんですが、Yahoo! JAPANのホームページに来ました。タイムラグがあるんですが、見ていてくださいね。「ぜひChromeでYahoo!のトップページ見てる」「検索窓になんて入力するんだろう」「楽天ペイ広告の三色表示、わかりみすぎる」みたいな感じで、今作業をしている画面に対してGeminiが画像認識をして、面白いコメントを返してくれる、というものになるわけです。面白いですよね。それでは、Excelの作業をもう少しやっていこうと思います。適当に、氏名と給料で、田中さんで鈴木さんで。田中さんは120万で、鈴木さんは20万とかでしょ。入力したらAIがどんな風にコメントを返してくれるか、見ていきましょう。出てきましたね。田中さんの給料が1200円。画像認識、うまくできてないですね。でも「田中と鈴木、名簿あるあるの定番ネタ好き」みたいな感じでコメントが出てきてますね。「B列の数字、B列じゃない、C列か、すごい金額だな」「C6セル選択中、次何に入力するんだろう」みたいな感じで、結構見えていますね。性能が100点満点ではないんですけど、だいたいどういうことをやっているかは、そこそこいいんじゃないかなと思います。裏側ではGemini 2.5 Flashという、速いんだけど頭は軽め、というモデルを今回使っているので、画像認識の精度に課題があるのは当たり前なんですけど、すごくないですか。やっていくことができるんですよ。他には、例えばここに平均値とか出してあげると、AIはこれ見てくれたりするんですかね。「合計値ってどうやって求めるの」「合計を出すのかな」とか、できてますね。今作業中の画面に対していろいろコメントをさせることができる、という話です。今回はお遊びでやっているんですけど、技術的にはとても可能性があると思っていて、AIに画面を見させながら一緒にコメントをさせたり、場合によってはこういう操作もやってくれるようになってくるんですかね。今回、これを紹介させていただきました。ちなみに、今回のアプリは、Xで見つけたリカさんという方の投稿を参考にさせていただきました。すごいのは、19歳の高校生の子なんだ、すごいね。3月1日に投稿されていたんですが、Macの画面を監視してAIが配信コメントを流してくれるアプリを作った、ということをやっているので、僕もやってみようかなと思って、Cursorに投げたら簡単にできたので、皆さんもこうやっていただくといいんじゃないかなと思います。実装の方法は非常に簡単です。私は、AIエージェントツールで慣れているのがこのCursorなんですが、AIチャット欄に「こういうことやりたいですよ」というと、左側にファイルを作れたり、今回みたいなアプリを作ることができます。指示はとっても簡単です。「Windowsパソコンの画面を3秒に1回ぐらい、その画面を認識して、それをGoogleのGeminiのAPIに投げて、その画像に適したコメントを返す、というのを作りたい。ニコニコ動画みたいに、画面の右から左に短い文章が流れてくる、というのをやってほしい。このアプリを実装してください」という感じです。このくらいの指示をしてあげると、あとはポチポチするだけで簡単にやることができます。やっていることとしては、スクリーンショットを何秒に1回か取る。それをGemini APIに投げて文章を作る。それをプログラムで横から流していく、という、たったこれだけなので、非常に簡単にやることができます。実際、こう動いているような感じになっていて、数秒に1回ぐらい、この画面の認識をしながらコメントを表示してくれている、というのをやってくれています。終了してみましょうか。「終了」ってやると、これで終わるんですが、今回使った時間とかコストが出てきます。見えますかね。433秒起動しましたね。大体7分間ぐらい起動して、APIを65回呼び出した、ということをやってくれているみたいです。「コメントが195件流れてましたよ」とかですね。APIの平均待ち時間、ということで、大体13秒ぐらいですかね。画像を認識して、そこからGeminiのAPIに飛ばしてコメントが返ってくる、というところに、どうしても遅れがあるんですよね。専門用語でレイテンシって言うんですが、そのあたりが大体13秒ぐらいかかるので、さっきも、画面を切り替えた瞬間にテキストが変わらなかったのは、そういう理由です。ニコニコ動画とかもそうですよね。タイムラグがあってコメントが来る、と思うんですが、そんなものに近いことができたわけです。合計のトークンは16万6000トークンぐらい、ということで、大した金額じゃないですね。7分間動かして、私が払ったコストは、API料金で3.2円ぐらい、ということなので、別に24時間回したところで大した金額にはならないんですよ。Geminiの安いモデルを使っているので、こんな感じになっています。自分たちの好きなアプリとか、そういうものを実装することができます。実際に起動するときは、私、このフォルダにショートカットを作っていますので、こちらをクリックすると、GeminiのAPIが起動して、今からプログラムが立ち上がってくるかな、と思います。待っていただくと、行きましたね。コメントが始まりました、ということですね。終わるときは、Escapeボタンを押すと終わる、みたいな感じになっています。せっかくなので、このプログラムをもう少し楽しく修正していきたいなと思います。実際の作業も、一発で100点のものが出るんではなくて、やり取りを繰り返しながらアプリをパワーアップさせていく、みたいなことが必要なのかな、と思います。ここに修正を加えていきましょう。「このアプリをもう少し面白く修正してください。今は画像認識をしてGeminiでコメントを生成していると思うんですが、定型文も定期的に流すようにしてください。例えば『神』とか『わらわら』とか『草』みたいな、ニコニコ動画で出てくるようなコメントを、5つぐらい決まった定型文も作っておいて、その定型文のコメントが、ランダムに10回に1回ぐらいの頻度で流れてくるようにすることができますか」ということで、もう少し面白くするために、指示を出してみました。そうすると、最近のエージェントは、このファイルの中にあるプログラムとか、こういうものを見てくれて、「どういうふうに修正するといいですよ」みたいなことも出してくれます。「としやさん、結論から言うとできます」とかって言ってくれましたね。「今のGeminiなんとか、Pythonのプログラムはなんとかになっているので、だいたい10回に1回、ニコニコっぽい定型を混ぜることができます」と。そのまま実装する前に、まず定型文を私の方で確認してからにしたいと思います。「草」「わらわら」「神」「キター」「うpおつ」があるので、定型文は1から3を採用しましょう。あと2つ、顔文字とか、いけるかな。ニコニコ動画っぽくやっていきますよ。いいですね、このおすすめの2つ、面白いので、これも流しましょうか。この2つの顔文字も素晴らしいですね。先ほどの3つと、この顔文字2つ、合わせて5つを定型文にして、これの実装を始めてください、という感じで、Cursorが勝手に作ってくれますので、このまま待っていきましょう。放置していると、ゴリゴリ実装してくれます。こういう開発とかやってみると、「前の場所に戻したいな」とか、あると思いますので、必ずバックアップとか、ログを取りながらやっていただくと、いざというときに戻ることができるので、やっていくといいかな、と思います。できたらしいので、見ていきましょうか。いきなり顔文字が出てきて、「草」とか、いっぱい出てきちゃいましたけど。どうなるでしょうか。起動したら、いい感じに出てきましたね。ちゃんとAIのGeminiの画像認識をしたコメントが出てきてますね。出てきた、「草」、出てきた。これが、定型文のコメントですね。実装の仕方は、だいたいこんな感じで、好きなだけやってもらえれば、と思うんですが、実際にどういう作業ができるか、とも、やってみようかな、と思います。例えば、ビジネスシーンだとしたら、まさにこういうExcelとか、何でもそうなんですが、こういう作業をしているときに、コメントを流させると、これだけだと、ビジネスでは使えないですけど、楽しい会話とかが流れてきて、面白いんじゃないかな、と思います。あんまりこういうExcel作業とかには向いてないので、少しエンタメ的に見ているときの方が、良さそうですね。YouTubeでも見てみますか。先日アップした私のYouTube動画を、見ながらコメントを見ていこうかな、と思います。音が流れると、今の私の声と被っちゃうので、やらないんですが、YouTubeが見えている、というのが、見えているんでしょうか。「エージェントをポケモンにさせるの、いいね」とか、おおおお、いいですね。YouTubeで、こういう「AIエージェントを育てるのは、ポケモンを育てるのに近いんだよ」みたいな話をしている動画があるんですが、これを、ちゃんと読み取りながらコメントを流してくれていますね。面白いですね。YouTubeをニコニコ動画のように見ることができたり、しかも、パソコンの画面全部見ているので、どこでも見れるんですよね。Zoomとかのウェブ会議のときに、こういうのを流していくとか、そんなことやったら怒られちゃうそうですけど、そういうこともできるかな、と思います。ゲームもやってみようかな、と思います。ゲームをやっていこうと思うんですが、私、普段、シムシティとか牧場物語みたいな、こういう箱庭系のゲーム、すごい大好きなんですが、去年ぐらいから、ビーバーが街を作るみたいな、このシミュレーションゲーム、Timberbornっていうんですが、めっちゃ面白くて、これ、画面認識させてみようかな、と思います。そうすると、ちゃんと見えてますね。「工場地帯があるよ」とか「木が植えられてますよ」とか、「ビーバーちゃんを救ってあげて」とか、ちゃんとビーバーに関するコメントが見えてますね。怪我のログを見ると、本当だ、ビーバーが怪我した、というのが、ここに出て、こんなちっちゃい画面、見えてるんだ、すごい。「食料を確保するため、畑、広すぎ、笑える」みたいな感じとか、いいですね、素晴らしい。「早く、怪我したビーバーを助けてあげて」とか、いいですね。怪我しても、あんまり気づかないんですが、コメントで教えてくれるの、面白いですね。これ面白いな、いいね。こういうエンタメ的なものとかと、僕、昔から「AIと一緒にゲームできたら面白いな」ってずっと思ってたんですが、一緒にプレイとか、それこそ仕事とかもそうですが、作業をしたら、このAIがアドバイスをしてくれる、みたいな仕組みも、作れそうですね。さらに頑張れば、画像やったり、音声でセリフを出したりとか、いろいろやることができると思うので、いろいろやると面白いかな、という気がしました。今回は、AIに画像認識をさせてコメントを出させる、ということを遊んでみました。最近のAIエージェントを使ってもらえれば、こういうアプリとか、「こういうことをやりたい」って言ってもらうと、こんな簡単に実装できるんですよね。実装も、だいたい1時間ぐらい、AIと会話していたら、実装することができたので、こういうことやりたいなー、みたいなことをやっても面白いんじゃないかな、と思います。今回は、ニコニコ動画風の楽しいコメント、ってやったんですが、もう少しビジネス的に寄せるなら、例えば、画面のスクリーンショットを、1分に2回とか取っていって、1日どういう仕事をしているか、というのを、業務を可視化させる、みたいなこともできるかな、と思います。そういうサービスを販売されている企業さん、あると思うんですが、普通、数百万とか数千万とかすると思うんですが、それを、ほとんど自作することができて、しかも、ランニングコストも、本当に1日100円とか200円くらいでもできてしまう、ということで、非常に大きなインパクトというか、すごい可能性を感じる使い方かな、と思いました。もしよければ、皆さんも真似して、こんなことをやっていただけるといいかな、と思います。今回は、お遊び企画ですが、ぜひ皆さんも遊んでみてください。それでは、今回は以上です。ありがとうございました。


