AI時代のデータ活用は「ユースケース設定」「データ品質」が鍵。AWS Summit Japanセッションレポート



 

 

こんにちは、primeNumberです。

去る6月26日、幕張メッセで開催された「AWS Summit Japan」の2日目に、プロダクト開発本部 プロダクトマーケティングマネージャー(PMM)の森山さんが登壇、「ファイアウォール内部で閉域駆動、国産オンプレミスエージェントとは?」というセッション名でprimeNumberのデータ活用に関する取り組みや新機能についてプレゼンしました。

 登壇したプロダクト開発本部 プロダクトマーケティングマネージャー(PMM)の森山さん

データは持つだけでなく「正しく使う」ことが必要

プレゼンの冒頭、森山さんはとある楽曲を流し、「この曲をご存じですか?」と会場へ質問を投げかけました。

画像をクリックすると会場で流れた音楽を確認できます

流れた曲の名前は、セレナード 第13番 ト長調「アイネ・クライネ・ナハトムジーク」。森山さんは「この曲を聴いて本や映画の名前が思い浮かんだ人もいるかもしれない」とコメントした上で、「AIから見ると、この曲はただの音の信号の連続でしかない」と説明。「みなさんが名前を思い浮かべたのはこの音の信号に対して曲名や本などの情報がメタデータとして付与されているから」と続け、「データも同じようにメタデータを付与することでAIが理解できるデータに変わる」と、メタデータの重要性を説きました。

有名な音楽でもAIにはただの音の信号の連続として認識される

森山さんは誰でもAIが使える時代ではデータが非常に重要であるとした上で、「『Data is the new oil』という言葉のようにデータが新しい富の象徴として表現される一方、『Garbage in, Garbage Out』のようにゴミを入れてもゴミしか出ないという表現もある」という2つの比喩を紹介。「端から見ると相反するようだが、どちらもデータを正しく使わないと価値がないというメッセージは共通している」と、AI時代においてデータは持つだけではなく「正しく使う」ことの必要性を強調しました。

相反するようで同じメッセージを伝える2つのフレーズ

セキュアなオンプレミス環境からクラウドと連携してデータ活用できる「Self-Hosted Runner」

今やAIは企業の規模を問わず導入が進んでいますが、森山さん「AIはコスト削減や新たな価値を生み出すこともできる一方、誤った使い方をすると大きな被害を受けることもある」とし、日本の大手航空会社でシステム障害が発生した事例や、日本の中高生が生成AIで不正アクセスしたという国内の事例を紹介。こうしたリスクを避けるためには外部アクセスを遮断する必要がどうしても出てしまうが、その結果としてクラウドのデータ分析や利用のハードルが高くなるのが現状との課題感を示しました。

国内で起きたAIによる障害や不正アクセスの例

セキュアな環境でデータを保持しつつ、各種SaaSを利用することを実現するためのサービスとして森山さんが紹介したのが、primeNumberの「Self-Hosted Runner」(SHR)。ユーザーの環境下にSHRをインストールすることで、基幹システムからデータベースや各種SaaSにアクセスしてデータを自由に扱うことができます。

https://primenumber.com/trocco/features/self-hosted-runner

セキュリティ面でも「どんなデータを転送するかという外方向へのポートしか使わず、外部から内側へのポートが不要なため、外部からのリスクは圧倒的に可能性が低くなる」とセキュアなデータ環境であることを強調しました。

外側から内側へはアクセスできないためリスクの可能性が圧倒的に低い

一方で、このデータ転送設定が止まってしまうと肝心なデータが見られなくなってしまうため、森山さんはprimeNumberのクラウド ETL「TROCCO」がジョブの動作を監視し、運用側はSaaSで担うというハイブリッドアーキテクチャを推奨していると説明。TROCCO自体もさまざまなSaaSに対応しているため、「広告やSalesforceのデータを連携したり、オンプレミスからクラウドに取り込むこともできる」とのメリットも補足しました。

TROCCOを活用したハイブリッドアーキテクチャ

データ活用の鍵は「ユースケース設定」「データ品質」

こうして閉域で管理されているセキュアなデータを集約することができたものの、「そもそもの目的はデータを集約することではない」と語った森山さんは、冒頭に示したAIの活用方法を振り返り、「基幹システムのデータをAIがきちんと使えるようにすることが重要」と改めて目的を示しました。

森山さんは、国際的リサーチ企業であるGartnerが示したAIに関するレポートから、「6割以上の会社は自社のデータ管理がAIに適しているかを把握しておらず、認識不足のために6割以上のAIプロジェクトが中断または放棄される」との調査を引用。

認識不足により6割以上のAIプロジェクトが中断または放棄

さらにPwC Japanの生成AIに関する調査によれば、生成AIの効果が期待より上回った、または下回った要因として「ユースケース設定」「データの品質」がトップ2を占めています。森山さんは「経営層が進みたい方向とそのプロジェクトが合っているかどうかで大きな差が出ている」と解説しました。

生成AI活用の鍵は「ユースケース設定」と「データの品質」

こうしたAIを活用したプロジェクトの成否を分ける要因の1つが、冒頭のアイネ・クライネ・ナハトムジークで示したメタデータであると森山さんは指摘。「新入社員の頃を思い出して欲しいが、会社の中で使っている専門用語を会議で言われても議事録は取れない。これと同じくらいAIもデータの意味や解釈がわからないとデータを活用できず、間違った回答を示す可能性がある」との例を示し、「AIを活用するためにはメタデータをAIに学習させて便利なデータにする必要がある」とメタデータの重要性を語りました。

また、オンプレミスのセキュアなデータは「個人や企業の特定に繋がるデータが含まれていて使えない」という課題を挙げ、「データにどのようにアクセスしてどのような品質にするのかも重要である」とコメント。データを扱うための方針としてGartnerが示した「Align data」「Govern contextually」「Qualify continuously」という3つを紹介した上で、この方針に沿ってprimeNumberが提供する「AI-Ready無償診断」「DataOps伴走支援」「カラム単位の権限管理」という3つのソリューションを紹介しました。

Gartnerが示した3つの指針「Align data」「Govern contextually」「Qualify continuously」

AI-Ready無償診断は、企業の持つデータにメタデータがあるか、個人情報はどこに保存されているのか、使われていないダッシュボードやライセンスはないか、といった「会社の健康診断」で、会社がAI-Readyの状態にあるかを診断。そしてこれらの診断結果を納入して終わりにせず、DataOps伴走支援で最終的に会社の中でデータを活用できるよう徹底してサポートします。

カラム単位の権限管理は、データが役職や部署ごとに適切にアクセスできる機能で、データの不正アクセスや不正利用を防ぐことができます。

primeNumberが提供する3つのアクション

データエンジニアだけでなく現場の社員もデータを活用できるのがAI-Readyの秘訣

森山さんは「TROCCOは国内で2000以上の団体に導入いただいているが、今では皆様の課題解決を総合的に解決するソリューションへと生まれ変わっている」と説明。これまで紹介したSHRやAI-Ready診断に加えGUIで直感的に操作でき、非IT人材でも操作しやすいUIや豊富な日本語ドキュメント、QA支援もTROCCOの強みとしました。

非IT人材でも活用できるUIや日本語ドキュメント、QA支援も強み

「データの専門知識を持ったメンバーではなく現場の社員が使えるということが、AI-Readyのためのツールの秘訣だと私は思っています」と語った森山さんは「人材不足とインフレに悩んでいる企業にはぜひデータ活用の内製化を進めていただきたい」とアピール。日系サービスを含む広範なサービスに対応し、独自のサービス対応を自社で内製できるなど、エンタープライズツールと比べたときの費用対効果もTROCCOの強みとしました。

分析したデータを活用するための手段として、TROCCOと連携してCDP(Customer Data Platform)を実現できるprimeNumberの新サービス「TROCCO セグメントビルダー」も紹介。「現在使っているCDPが高額だったり、うまく運用できていないという企業には第一の選択肢になる」との自信を示しました。

CDPを安価に導入できる「TROCCO セグメントビルダー」

最後に森山さんは「データエンジニアやデータサイエンティストだけではなく、全社員がデータを活用して業務の力に変えられるのが、今日紹介した製品の強み」とアピール。「あらゆるデータを、ビジネスの力に変える。」というprimeNumberのミッションを改めて紹介し、セッションを締めくくりました。

あらゆるデータを、ビジネスの力に変える。