生成AIを活用したデータ分析の3つのポイント

生成AIデータ分析SQL
2025年09月04日 08:00

生成AIによるデータ分析の変化

最近、生成AIの活用がビジネスの様々な領域で注目を集めています。ChatGPTやClaude、Geminiといった生成AIツールが一般的にも広く使われるようになり、ManusGensparkなどのAIエージェント的なツールも普及してきました。特に注目すべきは、こういった生成AIがかなりの領域で自動化・高度化を実現しているという点です。最も顕著な例がエンジニアリング領域で、これまで人がプログラミングやソースコード作成を行っていた作業を、生成AIが大量のコードを効率的に生成できるようになりました。

データ分析の領域においても、生成AIを使った効率化・高度化が急速に進んでいます。従来のデータ分析では、人が分析の設計を行い、SQLやPythonでデータを集計・加工し、数値を算出するという流れが一般的でしたが、現在はSQLやPythonコードの生成を生成AIが担うようになってきています。

プログラミングの世界では「Vibe Codeing」という概念も出てきている通り、自然言語プロンプトからコードを生成する開発手法もあります。データ分析においても最近は「Vibe Analytics」と呼ばれる概念が出てきています。これはプログラミングにおけるVibe Codeingと同じで、データ分析においても自然言語プロンプトからデータ分析をする手法が注目されています。

こうした変化を加速させている要因の1つがMCP(Model Context Protocol)の登場です。MCPを使うことで生成AIが様々なツールにアクセスが可能になり、より自然言語からデータへのアクセスがしやすくなります。例えばBigQueryのMCP接続により自然言語でSQLクエリを実行できるようになったほか、TableauもMCP対応を進めています。これにより、Claudeデスクトップのような生成AIクライアントアプリケーションから各種データ分析ツールに直接アクセスし、自然言語でデータ分析を行うことが可能になりました。MCPをうまく活用することで企業としても個人としてもデータ分析の高度化を実現できるようになっています。

そこで今回は、実際に生成AIやAIエージェントを活用してデータ分析の効率化・高度化を実現している企業事例を紹介します。そして、これら生成AIをうまく活用してデータ分析を進めている事例をもとに「生成AI時代のデータ分析における3つのポイント」について解説していきたいと思います。

生成AIを活用したデータ分析の企業事例

①メルカリ:Socratesによる自律的分析システム

メルカリは、テック企業として高い技術力を持ち、最先端技術へのチャレンジで知られる企業です。同社が最近開発した新しい分析ツール「Socrates」は、AIを活用した社内向けのデータ分析ツールです。

Socratesは社内チャットベースのシステムで、自律的なデータ分析と仮説導出を行うAgentic AIです。SQLやデータの専門的知見がなくても、データの可視化からトレンドの把握と深堀り、仮説の導出、分析レポートの作成までを一気通貫で簡単に実行することができます。このツールは構想1ヶ月でローンチされたという開発スピードの速さも特徴的で、リリース後も1週間に約500人に使われており社内への浸透も進んでいるツールです。

構成としてはSocratesというAIエージェントが社内のBigQuery権限管理エージェントやPythonエージェントを使ってユーザーからの問い合わせに対して様々なツールを使用して結果を返答する仕組みです。

この自立型分析エージェントのSocrates開発の際に重要だと言及されていたのがデータ整備です。自然言語から分析を行うためにデータ整備として重要な点はメタデータ付与とテーブル設計です。AIに精度の高いクエリを作ってもらうには、データに対するメタデータの付与が必要になります。たとえばBigQuery上にカラムの説明文をしっかり書いてあげるなど、LLMが解釈しやすく、より安定して高品質な出力を生成するための工夫が重要です。

【参考】

②エムスリー:Claude Codeを活用した分析用SQL生成

エムスリーでは、従来はBigQueryに集約された様々なデータに対して人がクエリを作成して分析を行っていたところをAIによる効率化を実現しています。

これは個人のデータ分析作業において、BigQueryからデータを取得する際のクエリ作成をClaude Codeを使って効率化している事例です。Claude Code上からプロンプトを入力すると対話形式で必要な情報を確認して分析を進めることができます。

この取り組みで特に注目すべきは、Claude Codeを使ったクエリ生成において、以下3点の工夫を施している点です。

  • いきなりクエリ・コードを書かせない
  • データの探し方を教えておく
  • テーブルの情報をコンテキストとして蓄積させる

例えば、該当するデータソースがわからない場合はbq lsコマンドなどで探索してくれたり、data-catalogのテーブルやカラムの説明からデータソースを検索できます。またSQL作成において難しいポイントとなるJOINについてもあらかじめJOINの条件などを読み込ませることで精度の高いクエリ生成を実現しています。

この事例はあくまで個人単位で分析をする作業の効率化という観点なので、集計結果の妥当性の検証や、意図しない集計などを行なってしまう場合もあります。そのため、実際に活用する際には注意が必要です。それでも生成AIを活用してSQLの生成に関して効率化するための事例としてはとても参考になる内容です。

③クックパッド:Bdash Server MCPの活用

クックパッドに関しても、前述したエムスリーと似たアプローチでSQL生成の効率化を実現しています。

クックパッドでは元々Bdash Serverというデータ分析のSQLを共有・再利用するアプリケーションを使っていました。過去に作成したクエリを参考にすることでデータ分析の効率化を図る目的で導入されたツールです。しかし、参考になるクエリを見つけても多くの場合は結局は手作業でSQLを書く必要があり、まだまだ効率化の余地がある状態でした。

この課題を解決するため、Bdash Server MCPサーバーを開発し、Cursorを使ってMCPサーバーとして接続することで、SQL作成の効率化を実現しています。このBdash Server にMCPサーバーを実装することで、AIが過去にアップロードされたクエリを検索・参照できるようにしています。重要な点として、MCPサーバーはSQL文とその説明のみを取得するため、AIが実際の顧客データにアクセスすることはなく、あくまでクエリの構造やロジックを参考にするだけです。その点、セキュリティ対策も取れている構造になっています。

実際には以下のような手順で分析SQLが生成されます。例えば「ある機能をよく使っているユーザーを抽出したい」と指示をするとAIは過去の類似クエリを検索してSQLを生成することができます。

  1. 自然言語で分析したい内容を指示
  2. AIがリポジトリ内をgrepしたりBdash Serverから関連するクエリを検索
  3. 過去のクエリを参考にしながら新しいSQLを生成
  4. EXPLAINで実行プランを確認しながらコストを最適化

この事例においても重要なポイントは、社内にデータ分析で使ったSQLが溜まっているという点です。この場合であればBdash Severに過去に書かれた分析クエリが蓄積されており、それらをうまく活用することでより効率的に分析ができる仕組みとなっています。過去の分析クエリを参考にする分、単純な文法的なSQL生成だけではなくドメイン知識も含んだSQLの生成が可能になっていると考えられます。

【参考】

④ぐるなび:Snowflakeを活用したデータ民主化

ぐるなびは個人としてのデータ分析作業だけではなく、会社全体のデータ基盤整備によってデータ分析の民主化を進めている事例です。

ぐるなびは『データの活用はサービス開発においても必要不可欠な要素で、今後のビジネスの創出と成功にはデータの民主化が重要なカギである』という背景のもと、データの民主化に取り組んでいます。その中で、常に最新のデータを利用して、組織内にデータ活用の文化を浸透させることで、データから得られる洞察をビジネス戦略に生かし、誰もが新しいビジネスチャンスを創出すること目指しています。

一方で、データ民主化を実現するためには、「データ資産のサイロ化」と「組織構造上の問題」という2つの課題を解決する必要があり、そのためのデータ分析基盤としてSnowflakeを導入しています。データへのアクセス管理のルールを全社的に見直し、Snowflakeによるデータ統合基盤の構築でガバナンスを強化することでデータの民主化を推進しています。具体的にはSnowflake Cortex AIとStreamlitを活用することで、誰でもデータにアクセスできる環境を構築しすることで、日本語の自然言語で問い合わせを行い、分析を実行できる環境を作っています。

Snowflakeは最近、AI機能を備えたデータ分析基盤として注目を集めており、AI関連機能も充実しています。このような生成AI機能が搭載されたDWHなども増えており、現状のデータ分析業務の効率化やデータ分析の民主化を加速させることができます。今回のぐるなびの事例もまさにSnowflakeを活用したデータ分析の民主化の事例と言えます。

⑤サイバーエージェント(タップル):SQL Agentによるデータ利活用促進

マッチングアプリ「タップル」を運営する株式会社タップルが、自然言語からSQLを自動生成する「SQL Agent」を独自開発し、社内のデータ活用を推進している事例の紹介です。

ビジネス職の方などのSQLが書けない社員がデータ抽出と分析を実現できる状態を目指して、自然言語からSQLの生成できるツールを検討していました。元々はデータ分析の高度化でSnowflakeのCortex AnalystやCortex Copilotを使って検証をしていましたが、複数のテーブルのJOINが含まれる複雑なクエリの品質が低く、精度の高いクエリ生成ができなかったため、独自でエージェントの開発を進めたようです。

アーキテクチャとしては、Workflow AgentとしてDifyを使ったローコードでの作成をしています。また、LLMを使うところは、一つのLLMで全タスクをやらせるのではなくて、責務を分けるということを意識して複数のLLMを使い分けています。必要なテーブルやカラム、サンプルクエリを選ぶモデル、SQLの候補を生成するモデル、生成クエリをレビューしてそれを修正するモデル、生成候補を比較して最終結果を選択するモデルなどです。

それによって利用者が「今日のDAUを教えてください」のようなメッセージを送ると、LLMがSQLを生成して、それをデータウェアハウスで実行し、結果を返すといった処理を実現可能にしています。

参考

生成AI時代のデータ分析における3つのポイント

ここまで紹介してきた通り、昨今では生成AIやAIエージェントの活用によってデータ分析領域の効率化・高度化もかなり進んでいます。しかしこのように生成AIを活用してデータ分析を行うためには気を付けるポイントがあります。

生成AIを使えばデータの民主化が簡単に実現でき、誰でも分析ができるようになるという認識が広がっていますが、それは大きな間違いです。生成AIは決して『銀の弾丸』でもなければ、全くゼロベースから分析の民主化を可能にする夢のソリューションではありません。これまで社内で地道に積み重ねてきた分析経験やナレッジがあってこそ、真価を発揮するツールです。

先ほど紹介した事例も参考にしながら、ここからは生成AI時代におけるデータ分析における3つのポイントをまとめていきます。

①社内に分析の知見が蓄積されていること

1つ目のポイントは、社内に分析の知見が蓄積されていることです。

まず前提として、データ分析の基本は必要なデータを適切な形で取得して解釈して意思決定に活用することです。その際に多くの場合はSQLを使ってデータを取得しています。データ分析においてSQLがよく使われる理由は、社内のデータは基本的にRDBに保存されている場合がほとんどだからです。RDBに社内のデータが保存されている以上、SQLを使って必要なデータにアクセスするという構造は変わりません。つまり、生成AIを使ったデータ分析の効率化のポイントは、いかに効率よく、精度高く必要なデータを収集するためのSQLを生成できるかが重要な要素の1つになります。

特にデータ分析においてはビジネス課題などの文脈や社内特有のドメイン知識などが重要になります。たとえば、売上データを分析する際に「初回購入者の売上」を集計したい場合、「どのような条件で『初回購入者』と定義するのか」「返品やキャンセルは売上に含めるのか」「特定のキャンペーン期間を除外する必要があるのか」など、業務ごとに細かなルールや例外が存在します。

また、「一番売れている商品は何か」などのあいまいな指示をした際に、注文数で計算するのか金額で売上を計算するのかなどの具体的な集計方法も、生成AIだけでは判断ができません。この場合、商品と収益の関係を把握したいという背景があれば金額で売上を集計するのが良いかもしれません。しかし、実店舗で販売する商品のスペースを考えたいのであれば、何個売れているのか個数で集計する必要があるかもしれません。

このように、実際のデータ分析ではビジネスの文脈や目的を理解した上で、適切な分析方針を決定することが重要です。優秀なデータアナリストであれば、データ抽出依頼者の背景や本来集計すべきデータが何かを考えた上でデータ分析を進めていきます。生成AIはSQLの生成などの技術的な処理は得意ですが、このようなビジネス判断や文脈理解についてはまだまだ弱い部分があります。

つまり、このようなビジネス判断や文脈理解をした上で生成AIを使ったSQL生成やデータ分析を行うためには、実際に分析で使ったSQLなどのデータがとても重要になります。生成AIに正しい分析をしてもらうためには、過去実施した「正しい分析」や「正しいSQL」の情報が必要になります。これらが多ければ多いほど生成AIを使ったデータ分析の精度も高まると言えます。

データ分析における生成AI活用事例で紹介したエムスリーとクックパッドの例がまさにこのパターンです。両社とも、長年にわたって組織内でSQLを使った様々な分析を実施し、豊富な経験とナレッジを蓄積してきました。その既存資産をナレッジ化・体系化した上で、生成AIを部分的に活用することで効率化を実現しています。

つまり社内に全く分析の知見がない、SQLをうまく生成するための文脈情報がない、などの状態だと生成AIを活用しようにも活用方法が難しいです。逆に社内にしっかりと過去の分析結果や分析の際の文脈などをナレッジとして貯めておくことが、データ分析における生成AI活用の重要なポイントです。

②社内のデータが活用しやすい状態になっていること

2つ目のポイントは、社内のデータが活用しやすい状態に整備されていることです。これは1つ目のポイントにも近いですが、生成AIが社内のデータを理解しやすくするための工夫が必要というポイントです。

多くの企業では、データは散在しており、どこに何のデータがあるのか全てを把握している人も限られている状況が珍しくありません。このような状態では、どんなに高性能な生成AIを導入しても、宝の持ち腐れとなってしまいます。AIは人間と違って「察する」ことができないため、データの構造や意味を明確に教える必要があるのです。

具体的には、メタデータの管理が重要になります。基本的なところではテーブル構造や各テーブルの内容に関する情報がしっかりと管理されていることが重要です。例えば、「売上」というカラムがあったとしても、それが税込みなのか税抜きなのか、どの期間の売上を指すのか、返品処理後の金額なのかといった詳細な定義情報が不可欠です。

さらにはセマンティックレイヤーの概念も重要です。セマンティックレイヤーとは、複雑なデータ・ストレージ・システムとビジネスユーザー間のやり取りを簡素化するために設計されたアーキテクチャーです。従来データ分析においてはDBのテーブルやカラムなど詳細な情報を把握していないとSQL自体書くことが難しいです。そうなるとDBなどの知見が少ない人はデータにアクセスができないという課題があります。それを解決するためにセマンティックレイヤーという中間層を作ることでビジネスユーザーがデータにアクセスしやすくすることができます。具体的には「ディメンジョン」「メジャー」「リレーション」などをあらかじめ定義しておくことで、それらを組み合わせることでSQLを書かずに必要なデータを取得することができるようになります。

このようにセマンティックレイヤーを整備することで、生成AIとしてもデータの解釈がしやすくより正確にSQLの生成が可能になります。そのため最近では生成AI活用という文脈においてもセマンティックレイヤーの活用が重要になっています。

AIがクエリを生成する際には、過去のSQLも重要ですが、それを抽象化・構造化する際の情報も同様に重要です。テーブル構成やカラム情報といったメタデータをしっかりと管理することで、SQL生成の精度を向上させることができます。これは、AIが適切なテーブル同士を結合し、正確な集計ロジックを組み立てるために欠かせない要素となります。

これも、ゼロベースで生成AIを導入しても精度が上がらず、実用的にならない理由の一つです。多くの企業でSQL生成AIの導入を試みても、メタデータ管理が不十分な環境では期待した精度が得られず、実用レベルに達しないケースが頻繁に報告されています。逆に、データ辞書の整備やセマンティックレイヤーの構築に先行投資した企業では、大幅に精度が向上し、実用的なレベルでの活用が可能になったという事例も見受けられます。

データの整備や基盤への投資にしっかりと力を入れることが、生成AI活用成功の前提条件となります。今までは人がなんとなく理解してデータ分析ができていた状態から、メタデータ管理への投資を十分に行うことが生成AIを活用したデータ分析においても重要なポイントになってきます。

③データ分析フローを理解した「Human in the Loop」の実践

3つ目のポイントは、データ分析のフローを理解した上で、「Human in the Loop」を意識することです。「Human in the Loop」とはAIの判断やプロセスに対して、人間が意図的に関与する設計思想のことです。データ分析においてはまさにこの「Human in the Loop」の設計を考えて生成AIを活用することが重要です。

生成AIは「1から100まで全ての分析を自動で行ってくれる」という万能なツールではありません。データ分析には、仮説立案→データ集計→加工→アウトプット→解釈→考察→意思決定という一連のステップがあり、これらすべてをAIに任せるのは適切ではありません。

例えばメルカリの「Socrates」の事例では、SQLやPythonを使ったデータ出力・集計の部分や、仮説出しの段階での協働といった、特定のステップでAIを活用しています。データ分析を1から100まで全てAIに任せるやり方ではありません。それはAIにも得意な領域や苦手な領域があるからです。

また、エムスリー、クックパッド、サイバーエージェントの事例では主にデータを取得する際のSQL生成を効率化する目的で生成AIを活用しています。

たとえば、AIが得意なのは、大量のデータから一定のパターンを見つけ出すことや、定型的なクエリを高速で生成すること、人間では見落としがちな変数の組み合わせを提案することなどです。一方で、ビジネス文脈を踏まえた解釈や、データの背景にある業務プロセスの理解、分析結果をもとにした戦略的な意思決定といった部分は、依然として人間の判断力や経験が不可欠となります。

つまり重要なことは、データ分析のフローを理解した上で、どの部分をAIに任せ、どの部分に人間が介入するかを明確にすることです。特に、データを活用した最終的な意思決定や、具体的なアクションの実行については、人間が責任を持って行う必要があります。

これが「Human in the Loop」の考え方です。分析の前処理や集計、SQLの作成はAIに任せつつ、結果の解釈や意思決定は人間が判断するという役割分担により、生成AIを効果的にデータ分析プロセスに組み込むことができます。

データ分析は以下の7つのステップに分解することができます。

このステップを考えると、課題に対する仮説だしや、SQLを使った実際のデータ分析に関しては生成AIを活用することで効率的に、より高度な分析ができる可能性が高いです。一方で、最初の課題設定においてはビジネス上何を課題として定義するかは人が判断する必要があります。またデータから導き出せる最終的な意思決定についても人が行う必要があります。

このようにデータ分析のプロセスを分解して、どの領域を生成AIに任せて、どの領域を人間が担保するのか、業務プロセスとセットで生成AIの活用は検討すべきです。そうしないと、生成AIに過度に依存した結果良い結果が得られなかったり、逆にAIが得意な定型作業を人間が続けることで非効率が生じたりと、中途半端な活用に終わってしまいます。

おわりに

生成AIを使ったデータ分析効率化の事例は急速に増加しており、この流れは今後も加速していくと考えています。データ分析の民主化もさらに広がっていくでしょう。

ただし、これらはゼロベースから実現できるものではありません。生成AI活用においても、SQLを活用した地道な分析ナレッジの蓄積、メタデータの管理、データ基盤の整備といった基礎的な取り組みが不可欠です。

今回紹介した事例からも分かるように、生成AIによってデータ分析の効率化・高度化は進んでいますが、基本的なデータ分析のプロセス(データ整備→設計→SQL生成→クエリ実行→結果取得→解釈)は変わっていません。これはデータがRDBに保存され続ける以上は今後も変わらないでしょう。

つまり今後も重要なのは、要望に合った正しいクエリをいかに生成できるか、正しいデータをいかに自動で抽出できるかという点です。そのためには、SQLの基礎的な知識と、AIに精度の高いSQLを生成してもらうためのスキルが重要になります。

まだデータ分析組織がない企業で、生成AIを活用した分析の自動化を検討している場合は、いきなり高度なシステムを導入するのではなく、まず社内のデータを人力でSQL分析したり、Excelで分析したりすることから始めることをお勧めします。そのためにもSQLを使った分析ができる人材の育成は、組織のデータ活用能力向上の重要な要素です。生成AI時代だからこそ、基礎的なデータ分析スキルの重要性がより一層高まっています。こうした地道な取り組みを通じてベースとなる知見を蓄積した上で、生成AIを活用していく段階的なアプローチが効果的です。

法人向けのデータ分析内製化支援サービス

SQL Icon

SQL Everyone

  • 法人向けのデータ分析内製化支援サービス(SQL研修サービス)
  • 実務でSQLを使うための『マンツーマントレーニングプラン』あり
  • ハンズオン形式で学習の仕方をサポート

担当者より順次
ご連絡させていただきます

SQL Everyoneについて
詳細をご確認いただけます

SQL入門書

データ分析力を高める ビジネスパーソンのためのSQL入門

  • ビジネスパーソン向けデータ分析のためのSQL入門書
  • データ分析で使うSQLについて必要最小限で最短で学べる本
  • ハンズオン形式でゼロから実践で使えるSQLが学べる