HPE Blog, Japan
1824933 メンバー
3746 オンライン
109678 解決策
新規ポスト
HPE_Japan

実践! 最新AI基盤で手軽に始める超データマネジメント~データのサイロ化とAI学習の負担はこれで解消~

OnishiKanako_small1.jpg

著書プロフィール

大西 可奈子Onishi Kanako

博士(理学)。大手IT企業でAIの設計や導入をリードする傍ら、AI人材の育成にも携わる。AIに関する講演や執筆、監修等を多数行う。
著書・監修書に「いちばんやさしいAI〈人工知能〉


鍵を握るのはMLOps! 今、AI基盤には何が求められるのか?

近年、多くの企業がDX(デジタルトランスフォーメーション)を進めるなか、AIを軸にしたDXの取り組みも増えてきました。AI導入を成功させるためにはMLOps(機械学習のモデルを継続的に改良していくこと)が不可欠ですが、その実現にあたっては「開発環境構築に時間がかかる」「GPUを効率的に使えない」など、様々な課題が行く手を阻みます。どのようなAI基盤を用いれば、これらの課題を解消してMLOpsを可能にし、AIを軸にしたDXを成功させることができるのでしょうか。

その解の一つを示したのが、2022425日に開催されたオンラインセミナー「実践! 最新AI基盤で手軽に始める超データマネジメント~データのサイロ化とAI学習の負担はこれで解消~」です。

同セミナーでは、AIプランナーとして活動する筆者の講演のほか、日本ヒューレット・パッカード オープンソース・Linuxテクノロジーエバンジェリスト古賀政純氏、エヌビディア ソリューションアーキテクチャ&エンジニアリング シニアソリューションアーキテクト佐々木邦暢氏が登壇するパネルディスカッションなどを実施。MLOps を実現するためにAI基盤に求められる条件や、それを可能にする具体的なソリューションについて、議論が繰り広げられました。

2_1.jpg

 

ここでは、その模様をダイジェストでお届けします。

重視すべきは「学習→評価→再学習」のサイクル

冒頭、筆者より「『AI学習』って本当に大変! 解決の糸口は?」と題して、機械学習モデルを作成・運用する際の課題とその解決方法についてお話しました。

AI学習とは、機械学習モデルを作成することです。機械学習モデルは、既知のデータを学習することで、未知のデータに対して適切な判断を下すことができるようになります。例えば、これまでに届いた迷惑メールを機械学習モデルに学習させれば、その後届くメールに対して機械学習モデルが推測を行い、迷惑メールを排除できるようになるといった具合です。

いったん機械学習モデルの学習が完了すればAIは稼働できるようになりますが、それで終わりではありません。機械学習モデルは、使っているうちに精度が落ちるからです。そのため、使っている間も適宜評価を行い、必要なタイミングで再学習しなければいけません。この学習、評価、再学習のサイクルがMLOpsであり、これをいかにスムーズに回すかがAIプロダクト開発において最も重要なポイントなのです。

ただし、MLOpsを実現しようとすると様々な問題に直面します。よくある課題として「環境構築が大変」「GPUを効率的に活用できない」「機械学習モデルの管理が煩雑」といったものが挙げられます。中でも筆者が強調したいのは、「GPUをいかに効率的に使うかが、AI導入の成功率を大きく左右する」ということです。

機械学習モデルの学習にはGPUが必須なので、学習している間は、ずっとGPUを使い続けることになります。学習には意外と時間がかかるもので、筆者の経験では1カ月半かかったこともありました。その間、一人でGPUを占有してしまうと、他の人は何もできず、プロジェクトも進みません。有限のリソースであるGPUを効率的に使うことは、AIプロジェクトを成功させる秘訣なのです。

MLOpsにおいて問題が起こる箇所はすでにある程度わかっていますし、多くの場合、その解決策も準備されています。講演では、問題が起こる前提で、それらを解決可能なソリューションを選ぶことも、AI導入の重要なポイントであることをお伝えし、締めとしました。


MLOps
成功のために「人を知り、技術を学ぶ」

続いて、「徹底討論!データマネジメントの課題と解決策、AI基盤に求められる条件とは」と題して古賀氏、佐々木氏が登壇。筆者がモデレータを務め、パネルディスカッションを実施しました。

MLOpsで起こる課題として古賀氏が取り上げたのが、データのサイロ化問題です。

「特定の部門がデータを独り占めしているというのは良くあること」だと古賀氏は話します。また、それぞれの部門でデータ活用は行えていても、いざ全社規模でAIを軸にしたDXを実現しようとすると、部門をまたいだデータアクセスができなかったり、そもそもフォーマットが異なるためにデータを受け渡せなかったりといった実態が明らかになることは少なくありません。こうした問題を根本的に解決するには、組織に目を向ける必要があると古賀氏は語ります。

MLOpsをうまく回すためには、まず人を理解しなくてはいけません」(古賀氏)

 2-3.png

 

DXの推進担当者はデータサイエンティスト、データエンジニア、データアナリストといった様々な立場の人たちと意思疎通を図り、全体をまとめあげていくことが必要です。「ツール選択はもちろん重要ですが、ツールだけで何とかなるものではないということに気を付けていただきたい」と古賀氏は釘を刺します。

では、人や組織の課題をクリアした上で、求められるAI基盤とはどのようなものなのでしょうか。

AI基盤の構成要素には「AIアプリケーション開発」部分と「AIインフラ」部分の大きく2つがあります。「AIアプリケーション開発」はMLOpsを実現するところです。「どちらも0から手作りしていたらとても追いつかないでしょう」と佐々木氏は話します。

MLOpsをスムーズに進めるためには「対話的セッション」「学習のバッチジョブ」「推論サーバの展開」など多くの機能が必要ですが、実現するには様々な課題があります。その一例として、佐々木氏はソフトウェアスタックの管理問題を示し、この課題を解決するには、AI基盤にコンテナテクノロジーとジョブのオーケストレーション(計算リソースの効率的な稼働)が必要であることを説明。こうした技術のほかにも、AI基盤にはデータセットの管理やレポーティングといった機能が求められると語りました。

 2_4.png

 

 

最新AI基盤「HPE Ezmeral」ソリューションとは

ディスカッション後半では、ここまでの話を踏まえ、MLOpsの課題を解決する具体的なソリューションとしてデータ分析/AI基盤「HPE Ezmeral」が紹介されました。

HPE Ezmeralは、AIを軸としたDXの実現に役立つ複数のコンポーネントで構成されています。

例えば、エッジからクラウドまでカバーする「HPE Ezmeral Data Fabric」は、サーバのスケールアウトが可能なソフトウェア定義型ストレージであり、コンテナ管理プラットフォーム「HPE Ezmeral Runtime」ではデータレイクを接続することで簡単にデータを取得可能です。MLOpsのサイクルを効率化するソフトウェア「HPE Ezmeral ML Ops」は、MLOpsを実行する上で必要な機能をGUIで提供しています。

2_5.jpg

 

また、GPUの配分についても配慮されているところが特長です。GPUは、よく使う部署とそうでない部署があるものですが、HPE EzmeralではGPUを必要なところに必要な分だけ割り当てることができるようになっています。

ここで視聴者が「GPUはグラフィックのためのプロセッサという印象が強いのですが、なぜ機械学習にGPUを使うのですか?」とチャットで質問。話は、GPUAIの関係へと進んでいきました。

実は、AIで使用するGPUはグラフィックス用のGPUと同じものです。その理由を佐々木氏は「グラフィックスの演算パターンとAI学習の演算パターンがそっくりだから」と説明します。

GPUの性能が向上すれば、これまでよりも規模の大きな機械学習モデルを、素早く学習させることが可能になります。特に自然言語処理の分野では最新のGPUがフル活用されており、2012年に約6000万パラメータだった機械学習モデルは、現在では5000億パラメータを超えるものもあります。

 2_6.png

「今、GPUの主力はHPEのサーバにも搭載されている『NVIDIA A100』です。さらに先日、それが進化した『NVIDIA H100』というGPUも発表されました。これもいずれ、HPEのサーバに搭載されると思います」(佐々木氏)

強固なセキュリティと容易なデータアクセスを実現

HPE Ezmeralは、オンプレミス、クラウド、ハイブリッドの3つで動作可能です。自社の状況に応じて選択できるのは、大きな利点と言えるでしょう。

AI基盤には、オンプレミスであれ、クラウドであれ、簡単にデータにアクセスできることが求められます。特にグローバルでDXを進める場合、オンプレミスのサーバが離れた場所にあったとしても、アクセスできなければなりません。

すでにクラウド環境を活用している場合はハイブリッドという選択肢があります。「最近は複数のコンテナが協調して動くコンテナオーケストレーションのエンジンとしてKubernetesがありますが、これをクラウド上で使っている方も多い」と古賀氏は説明。HPE Ezmeralの各コンポーネントは、オンプレミスのKubernetes環境と合わせて一元的に管理することができると補足しました。

「セキュリティの関係でデータを外部に出せない方々が日本には非常に多くおられます。最新の『HPE Ezmeral Data Fabric』では、オンプレミスにデータを置き、さらにマスキングする機能も持っているので、機密情報を扱う方にとっても選択肢の一つになると思います」(古賀氏)

ディスカッションでは、HPE Ezmeralが実際にどのように活用されているのかについても言及。工場や自動車会社などへの導入事例が多数紹介されました

* * * 

MLOpsを実現しようとした場合、インフラ、データ管理、ソフトウェアなど検討すべきことは多岐に渡ります。ここで二の足を踏む企業も多いのが実情です。これらを一つのソリューションで実現するHPE Ezmeralならば、MLOpsのハードルを数段低くしてくれることは間違いないでしょう。あらゆる企業が、当然のようにAIを活用する時代の到来は、そう遠くないのかもしれません。

ブログ:自治体の事例に学ぶ!データファースト実現に向け、真に役立つデータ分析基盤とは? 

HPE Ezmeral Now

HPE Ezmeral Data Fabric

 

 

 

 

 

 

 

 

0 感謝
作者について

HPE_Japan

日本ヒューレット・パッカード合同会社マーケティング統括本部公式アカウントです。