
11月21日にベルサール羽田空港で開催された「アーキテクチャConference 2025」。本記事では、ちゅらデータ株式会社の菱沼雄太さんがモデレーター、株式会社10Xの吉田康久さん、株式会社primeNumberの廣瀬智史さんがそれぞれパネリストを務めたセッション「現場課題から考えるセマンティックレイヤーとデータモデリング」の内容をお伝えします。
セマンティックレイヤーの取り組みを既に始めている参加者、言葉自体を初めて聞いた参加者が混在する中、AI時代におけるデータ基盤整備の本質的な課題と解決策について3人が語り合いました。
- AI時代に再注目されるセマンティックレイヤー
- 勝負はセマンティックレイヤー導入前に8割方決まっている
- 10Xが直面した現場の苦労
- AIエージェントによるデータ活用の実例
- AI時代におけるデータ整備の重要性とは
AI時代に再注目されるセマンティックレイヤー
セッションの冒頭、モデレーターの菱沼さんは「セマンティックレイヤーの意味や目的が、当初話題になった時と、再度注目されるようになった今とでは違うような気がしている」と話を切り出しました。
この問いに対し、10Xの吉田さんは過去と現在のセマンティックレイヤーの位置づけを整理。少し前までセマンティックレイヤーとは、部署ごとにダッシュボードの数字が微妙に違うといった課題を解決し、「Single Source of Truth」を実現することが主な目的であり、データガバナンスを実現し、人間が作るダッシュボードをサポートする技術として注目されていたとのことです。
一方、最近のセマンティックレイヤーへの関心の高まりの背景には「LLMがSQLを書く際、プロンプトを投げるたびに出してくるクエリが違い、再現性が取れない」という課題を指摘。「どういうデータソースを基にどういう風に集計するかを定義するのがセマンティックレイヤー。こういう制約を設けた上でLLMにSQLを書かせると、自由度は下がるが再現性が担保しやすい」と、AIが流行っている中でセマンティックレイヤーの価値が再認識されたという側面を説明しました。
primeNumberの廣瀬さんは、もう1つの背景として「世の中のデータ活用が成熟してきた」点を挙げました。セマンティックレイヤーはデータを統合し、モデリングした後に生まれる「そのままのテーブルの状態だと再利用可能性が低い」「データとしてあるだけだとその意味がわからない」といった問題を解決する技術だと説明。こうした次の次の課題に進んでいる企業が増えていることも関心の高まりの理由だと分析しました。

勝負はセマンティックレイヤー導入前に8割方決まっている
続いてセマンティックレイヤー導入時の障壁について議論が展開されました。
廣瀬さんは、どこにセマンティック情報を貯めるかという問題を提起。SnowflakeのSemantic Model、BIツール、dbtのMetricFlowなど選択肢があり、「どこに貯めていくのか」について現時点では答えがなく、それぞれのお客様の状況によって選ぶべきツールが変わると説明しました。
その上で廣瀬さんは「スモールスタートで始めてしまうのが良い」と提案。「質の高いデータを選び、スコープを小さくしてクイックウィンを作っていくアプローチが1番いい」とし、「セマンティック情報はお客様や皆さんの企業の中にしかない。それを貯めていくのはベンダー側にはできないので、貯めていく仕組みや体制を作っていくのは、今後AIの普及とともに間違いなく重要になっていく」と語りました。
吉田さんは「セマンティックレイヤー自体、やること自体はかなりシンプル」としながらも、「勝負はセマンティックレイヤーに取り組み始める前のところで、8割ぐらい決まっている」と指摘。「セマンティックレイヤーの前にあるデータモデリングやデータ整備が1番課題になってくるし、それがちゃんとできていればセマンティックレイヤーが価値を発揮できる状況」と語りました。
では、セマンティックレイヤー導入前の「8割」を構成する取り組みとは具体的に何か。菱沼さんの問いかけに、吉田さんは現場での具体例を交えて説明しました。
「例えば売上やキャンセル率といった指標を見る時には、お客さんのセグメント別に見たい場面や、オフラインの広告から来たのか、スマホからバナーでクリックしたのかといった軸で見たい場面がある」と吉田さん。しかし、「見たい指標が複数ある時に、それぞれの軸が指標ごとに異なっていたりすると、一貫した分析ができない」という問題が発生するとのこと。
さらに、ファネル分析のような購買に至るまでのステップでどこで顧客が離脱しているかを調べたい場合、「トレースできるIDがなかったりすると、いくらセマンティックレイヤーを整備したとしても、指標をまたぐような分析はできない」と指摘しました。
吉田さんは、こうした課題に対して2つのアプローチが必要だと説明しました。
1つ目は「元データを分析に耐え得る品質にする」こと。2つ目は「分析軸をいかにいろんな場面で使えるようにするか」であり、そのテクニックとして「ディメンショナルモデリングを使って設計していく」ことを挙げました。
菱沼さんが会場に「ディメンショナルモデリングをある程度やっている人」を尋ねたところ、データに興味のある多数の参加者の中でも手を挙げたのは数名程度でした。

この結果を受けて菱沼さんは「これだけ大勢のデータに興味ある人たちがいる中で、実はディメンショナルモデリングと呼ばれるようなモデリングテクニックが意外とデータ基盤の中で適用されていない」と指摘。「セマンティックレイヤーを入れてAI活用していきたいフェーズで1番障壁となる」可能性があるとし、「会社に帰ったら、『AI活用したいんだったら、ちゃんとディメンショナルモデリングした方がいいんじゃないですか』と訳知り顔で言ってみて」と参加者に笑顔で呼びかけました。
10Xが直面した現場の苦労
10Xでも、データ基盤整備には多くの苦労があったと吉田さんは明かしました。
「入社してから、データ加工に関するdbtのリポジトリが最大5つ同時稼働している時があった」「ディメンショナルモデリングをやっているところもなぜか2つあった」と、入社時の状況を説明し、具体的な課題として以下を挙げました。
- 横断できるIDがないとファネルの分析ができない: 複数のシステムを横断した顧客行動分析をしたいが、共通のIDがないため実現できない
- プライマリキーだと思っていたが違った: 開発チームと話していて初めて認識の齟齬が発覚
- データを受け渡すプロトコルをどうするか: データ生成側とのコミュニケーションやインターフェースの定義
- データ活用者側との期待値調整
吉田さんは「データ基盤の中だけではどうしようもない時がある」とし、データ基盤の入り口と出口、双方に課題があり、それぞれに向き合っていると説明しました。
AIエージェントによるデータ活用の実例
セッション後半では、AIエージェントにデータ基盤を触らせた経験について議論が展開されました。
吉田さんは複数の活用例を紹介しました。
- 探索的データ分析: BigQuery上にあるデータについて、いつからデータが入っているか、最大値・最小値、NULLの割合などをAIに分析させる
- ディメンショナルモデルのテーブル生成: Claude Codeなどにディメンショナルモデリングのテーブルを作らせる
- 集計処理の自動化: 作成したディメンションやファクトをジョインして集計する処理を依頼
特にディメンショナルモデリングについては「20年とか30年前ぐらいからある、ずっと生き残っているフレームワーク」であり、「LLMエージェント自体がディメンショナルモデリングのことはすごく知っている」と説明。「プロンプトをあまり書かずとも、どういう風にジョインすればいいか、セマンティックレイヤーの中でやっているようなことも解釈した上でやってくれる」と、その有効性を強調しました。

廣瀬さんは、primeNumberが提供しているCOMETAでの取り組みを紹介。「カタログに連携された社内のデータについて、自然言語で問い合わせる」機能を既に顧客に提供しており、「お客様にも喜ばれている」とのことです。
社内にたくさんデータがあって把握しきれていない環境では、「どういうデータがどこのテーブルに格納されているかをAIに問い合わせると、候補をリストアップしてくれて探索できる」「セマンティックの情報が連携されているのでいい感じにSQLを生成してくれる」とメリットを紹介。「100%確実ではないが、10分かかるようなSQLを書く作業を効率化できる。そういうものは間違いなく普及していく」との見通しを示しました。
また、菱沼さんからもCOMETAのようなデータカタログでメタデータやコンテキストをLLMに提供できるような情報整備がされてくると、「明らかにSQLを生成する精度が上がってくる」との指摘もありました。
AI時代におけるデータ整備の重要性とは
セッションの最後に、今後のデータ活用について両者の見解が示されました。
吉田さんは「ちゃんとしたデータを基にLLMやデータ活用をやっていく」ことの重要性を強調。地道な取り組みとして「スキーマをしっかり固めること」「データ生成側とのコミュニケーションを通じて入力のバリデーションを固める」ことを挙げました。
また、「データエンジニアだけではなく、アナリストやBizDevなど、いろんな人がデータを整えて資産にしていくという視点が大事になってくる」と、組織全体でのデータ整備の重要性も指摘しました。
廣瀬さんは「AIは間違いなく発展していく」としながらも、「それがうまくワークするためには日々の地道な活動という土台をちゃんと作る必要がある。双方にアンテナを張って活動していくのも重要」と両面の重要性を強調しました。
そして「データの活用の場面は日に日に広がっていっている。でも一方で、データを使いたいと思う人はたくさんいるのに、整備する人たちはそれほど増えていない」との現状を指摘。「データ整備に取り組む我々の価値はますます大きくなっていく。非常にレバレッジをきくところになっていくので、頑張っていく場面」だとコメントしました。
続けて廣瀬さんは「何十億人がコンシューマーとして使っているものは間違いなくtoBにも来る。データをうまくマネジメントしてリーダーシップをとって企業のビジネスを推進していくという、我々のスキルセットの価値やノウハウの価値は大きくなっていく」としました。
菱沼さんは「皆さん頭の中に、自分の目の前にあるデータベースやデータウェアハウスを思い浮かべていただくと、人によっては沼のようになっているデータ基盤もあると思うが、やっぱりちゃんと向き合って、僕らと一緒にデータ整備をやっていきましょう」とセッションを締めくくりました。

今回のセッションでは、AI活用を実現するためにはセマンティックレイヤーの導入以前に、ディメンショナルモデリングなどの地道なデータ整備が「8割」を占めるという課題が示されました。しかし同時に、その地道な取り組みこそが今後のAI時代において最も価値を発揮する基盤となることも示されました。
データエンジニアだけでなく、アナリスト、BizDev、開発チームなど組織全体でデータに向き合い、地道に整備を進めていくことが、真のAI活用への道であることが語られた貴重なセッションとなりました。