リサーチ系AIツール6種16モデルを徹底比較!ChatGPT・Gemini・Perplexity・Genspark・Felo・Grok【AI高度検索・Deep Researchを含む】

今回はリサーチ系AIツール6種16モデルを徹底比較します!ChatGPT、Gemini、Perplexity、Genspark、Felo、Grokの6種をリサーチし、どれが最も良いリサーチツールか検証します。最近登場した「ChatGPT Deep Research」など、高度な検索モードも含めて検証しますので、ぜひ最後までご覧ください。
▼目次
0:00 はじめに
3:05 今回検証するプロンプト
5:39 リサーチ系AIツール6種16モデルを徹底比較!
5:49 ①ChatGPT-4o
9:45 ②ChatGPT-o3-mni
11:19 ③ChatGPT Deep Research
16:10 ④⑤Gemini 2.0 Flash / Thinking Expemental with apps
16:55 ⑥Gemini 1.5 Pro Deep Research
18:10 ⑦Genspark
18:57 ⑧Genspark Agent
20:10 ⑨Perplexity Pro
21:20 ⑩Perplexity R1
22:22 ⑪Perplexity Deep Research
23:08 ⑫Felo AI
23:31 ⑬Felo AI Agent
25:32 ⑭⑮⑯Grok・Think・Deep Search
26:35 まとめ・検証結果
▼文字起こし
こんにちはAIキャンプの中村俊也です。今回のテーマは「リサーチ系AIツール6種16モデル徹底比較」です。今回は、OpenAIのChatGPT、GoogleのGemini、Genspark、Perplexity、Felo AI、そしてXで利用可能なGrokという6つのAIツールを徹底検証します。特に近年、リサーチ系AIツールは非常に進化し、数も増えているため、どれが一番良いのか迷っている方も多いと思います。なお、1つのAIツール内にも複数のリサーチモデルが存在しており、例えばChatGPTの場合は、1つ目が通常モデルで使用可能なGPT 4を用いたリサーチ、2つ目が最近登場した推論モデルのO3 miniを用いた推論リサーチ、3つ目が非常に注目されている高度なリサーチツール「ChatGPT Deepリサーチ」となっています。Deepリサーチは、リサーチ系AIエージェントとも呼ばれ、非常に高度な検索が可能なため、単に「ChatGPTで検索する」と言っても種類が多く、各モデルごとに検証する必要があります。今回は、ChatGPTではGPT 4、O3 mini、Deepリサーチを、Geminiでは新たに登場した「2.0フラッシュ」および「2.0フラッシュ Thinking Experimental with apps」とDeepリサーチを、Gensparkでは通常検索とエージェント検索を、PerplexityではプロモードとDeepシーク(中国のAIモデルを用いたR1検索モードおよびDeepリサーチモード)を、Felo AIでは通常モードとエージェントモデルを、そしてGrokでは検索、Thinkモード、Deepサーチの3種類を用いて、合計16モデルを検証しました。私たちAIキャンプのメンバーがさまざまな意見を交わしながら検証した結果、まず、ChatGPTのGPT o4を用いた検索では、ウェブ検索が作動して迅速に回答を生成するものの、詳細なレポート作成依頼に対しては調査対象のページが2ページ程度に留まり、私たちが実施しているAIキャンプシップ講座や、しずおか焼津信用金庫との7ヶ月にわたる生成実証実験のページは参照されたものの、ホームページ全体の深堀りには至らなかったことが分かりました。続いて、株式会社TENHO、東京本社の企業でセミナー講師として登壇した実績があり、PRタイムズで取り上げられるものの、単発イベントであるため継続的な静岡県内の民間事業者としては不適切と判断される例、静岡AIラボ、定期開催と記載があるものの、実際は2023年10月のみの開催で定例性に欠けるもの。およびその他の事業者についても検証し、7社目以降は対象外の企業、例えば人工知能の開発や製造業向けAIシステムの開発企業が抽出されるなど、誤った情報、ハルシネーションが目立ちました。以上の結果から、ChatGPTのGPT 4oを用いたリサーチは、リサーチ量が十分でなく、ハルシネーションが多く、全体の約半分しか正確に調査できていないため、場合によっては不便と感じました。一方、O3 miniでは、エラーや「わからない」という回答が多発し、AI研修を実施している企業として確認できる情報は得られず、内容が非常に微妙でした。次に最も注目すべきは、ChatGPTのDeepリサーチです。Deepリサーチは、プロンプト入力後にどの切り口でリサーチを進めるかをまず問いかけ、企業調査と詳細なレポート作成を指示すると、5分から15分ほどかけて膨大な情報(約2万文字規模)のレポートを生成します。実例として、静岡県内の生成AI研修企業10社がリストアップされ、上位第1位には私たちの株式会社ラーニングライトが詳細に表示され、静岡市を拠点に生成AIに特化した研修サービス「AIキャンプ」を提供し、初心者向けセミナーから徹底研修まで多彩なプログラムが用意され、代表の中村俊也が実績を積んでいることが明記されました。全体として、Deepリサーチは圧倒的なリサーチ量と精度、ほとんどハルシネーションが発生しない点で非常に優れており、実務レベルの成果を示しています。次に、GoogleのGeminiでは、「2.0フラッシュ」や「2.0フラッシュ Thinking Experimental with apps」、Deepリサーチの3方式が利用可能ですが、2.0フラッシュは概ねGPT 4oのリサーチと同等の精度で正確な企業が抽出される一方、一部誤情報も含まれており、Deepリサーチはリサーチの切り口提案を行いますが、その成果にはばらつきがありました。また、Gensparkでは通常検索では東京の企業や静岡県外の企業、無関係な施設などが多数抽出され、ほぼ100%がハルシネーションで全く使えない結果となり、Deepリサーチも長時間かかる上にひどい結果に終わりました。さらに、Perplexityの検索系機能では、通常検索、プロサーチ、Deepリサーチ、さらに中国製のDeepシーク(R1による推論検索)やChatGPTのO3 miniによる推論検索があり、特にプロサーチ(R1)は、私たちの株式会社ラーニングライトや静岡キャリアアップスクールといった企業を迅速かつ正確に抽出し、ハルシネーションがほとんどなく、検索速度も速いことから、今回の検証の中では最も有用なモデルの1つであると感じました。一方、PerplexityのDeepリサーチは、静岡県における生成AI研修事業者として私たちの会社が抽出されるものの、全体的な出力内容は不十分で、使い物にならないとの評価に至りました。次に、Felo AIはエージェント機能が搭載され、パルチステップ検索エージェントとして順次調査を進めるものの、対象となる企業の詳細な調査というよりは生成AI研修の概要をまとめる形となり、ユーザーのニーズに完全には一致せず、結果として、特定企業の情報ではなく業界全体の情報が返されるため、使い勝手が難しい印象を受けました。最後に、Xで利用可能なGrokでは、検索結果として株式会社システム情報や株式会社テクノプロなど、不適切な企業が抽出され、ほぼ100%がハルシネーションのような全く使えない結果となり、シンクモードやディープサーチモードを試しても改善されませんでした。総合すると、今回の検証で第1位に輝いたのはChatGPTのDeepリサーチであり、圧倒的なリサーチ量と精度、ほぼハルシネーションが発生しない点が際立っています。第2位はPerplexityのR1で、検索速度の速さとハルシネーションの少なさが評価されました。一方、Genspark(通常検索およびDeepリサーチ)、Grok、そしてFelo AIのエージェント機能は、今回のプロンプトにおいては全く使い物にならないか、ニーズに合致しない結果となりました。AIツールは多種多様でどれを選ぶべきか迷うかもしれませんが、迅速な検索を求める場合はPerplexityのR1(無料版で利用可能)、詳細なリサーチを行いたい場合は何と言ってもChatGPTのDeepリサーチを優先的に使うことをおすすめします。まだ利用したことがない方は、ぜひChatGPTの有料版に課金して一度試してみてください。今回はリサーチ系AIツール6種16モデルの徹底比較として検証しましたので、ぜひ参考にしていただければ幸いです。ありがとうございました。