HPE Blog, Japan
1820594 メンバー
1909 オンライン
109626 解決策
新規ポスト
Masazumi_Koga

【前世紀AI技術者が語るシリーズ】米国NVIDIA社のAIインフラの認定試験(日本から自宅PCで受験可)

NVIDIA_Certified_AI_Infra_and_Op_MasazumiKoga_20240728.png

筆者がFORTRAN 77とC言語でAIプログラミングを始めたのが1997年。そんなレトロ感満載の米国HPE公式AIアンバサダー古賀政純(こが まさずみ)が、AI・データサイエンスがらみの話をざっくり語るブログ記事、4回目は、NVIDIA社の認定試験情報をお届けします。

■NVIDIA社が提供するAIインフラの試験

先日、米国NVIDIA社のAIインフラに関する認定試験を受験しました。

合格すると、NVIDIA-Certified Associate AI Infrastructure and Operations(エヌビディア・サーティファイド・アソシエイト・AIインフラストラクチャー・アンド・オペレーションズ)、通称、NCA-AIIO(エヌシーエー・エーアイ・アイ・オー)という認定資格がもらえます。もちろん、全世界で通用する履歴書に書ける資格です。

このNCA-AIIOは、AIの基礎から、NVIDIA社のAI向けハードウェア製品、AIソフトウェアソリューション、AIデータンセンターで利用されるオープンソースソフトウェア、運用に至るまで、NVIDIA社の製品を主軸に、AI基盤の基礎知識が幅広く問われます。
どのような顧客に対して、どのハードウェア製品、どのソフトウェア製品、どのオープンソースソフトウェアが必要なのかを答えられるようにしておく必要があります。試験は試験なので、当然知識を詰め込む勉強が必要なのですが、AIのインフラ系SEにとっては、実務に役立つ知識がたくさんあるので、もっておいて損はありませんし、実際、AIの基礎知識だけでなく、NVIDIA社製品の知識や周辺技術の情報が整理できるため、AIインフラ系の知識とNVIDIA製品(ハード、ソフト)を学びたい方にとっては、有用な試験だと思います。
試験におけるトピックは、おもにAI入門、AIインフラ、AIデータセンター、AIクラウド、運用です。それでは、順に、前世紀AI技術者目線で、みていきましょう。


■AIのユースケースとAIが適用可能な業界
GettyImages-89015295_800_0_72_RGB 8271.jpgAIとはいったい何か、AI の基本的な概念や原則、そして、AIのユースケースは理解しておく必要があるでしょう。いわゆるAIを活用する業界です。

前世紀のAIでユースケースとして有名なのは、いわゆる専門家の一部の知識をあらかじめ入れておいて、if thenのような条件判断をさせるエキスパートシステムや、三目並べ、五目ならべのような強化学習がありましたが、現在は、ご存じのとおり、製造業だとロボット、予知保全、医療だと画像診断、金融だと、取引処理、小売りだと店舗にいる顧客動線(顧客の動きの流れ)の傾向分析や監視など非常に多岐にわたります。

ちなみに、筆者がAIをC言語やFORTRANで書いていた1990年代には、すでに、製造業でも工場のプラントのお掃除ロボットの最適経路を見つけるといった発想はすでにありました。そういった最適経路探索では、AIではなく、進化計算や遺伝的アルゴリズムと呼ばれる一種の最適解の発見に関する基礎研究が行われていて、そういった最適解を発見するプログラミングでは、C言語やFORTRANを駆使し、高速なCPUを積んだワークステーションで研究開発が行われていました。(が、当然、ハードウェアの処理性能も全然足りず、古賀含め、よい結果が全然出せないというのが30年以上続いたわけです、全世界で・・・)

■AIの進化
HPE20160627144_800_0_72_RGB 2361.jpg昔のAIと今のAIって当然異なるのですが、機械学習(Machine Learning、通称、ML)、ディープラーニング(通称、DL)、そして、生成AI(Generative AI、通称、GenAI) へと進化しました。

​例えば、みんな大好きChatGPTでは、文字チャットができますし、最近の生成AIでは、音楽や動画コンテンツも生成できますよね。これら、音楽、画像、動画などのコンテンツを生成する Generative AI アプリケーションは、創造性があるのですが、逆にいえば、前世紀のAIは、全く創造性がないわけです。

機械学習とディープラーニングと生成AIは何が違うのか、どういった用途が向いているのか、今一度整理しておくことをおすすめします。

 

■ハードウェアの進化、AI向けのハードウェア
HPE20200310006_800_0_72_RGB 14830.jpg先程のAI自身の進化以外にも、AIを実用化できた大きなターニングポイントの要因として挙げられるのが、ハードウェアの進化です。当然、CPUもメモリもディスクも前世紀のAIのハードウェア環境に比べれば処理能力が向上しているのは当然ですが、中でも、GPUは、 AIにどのような革命をもたらしたかを理解しておく必要があります。単なるグラフィックを表示する機器だったものが、なぜAIで使われるようになったのかは、認定試験うんぬん関係なく、基礎的な知識として知っておくべきです。​

そして、GPU と CPU の違いも理解しておく必要があるかと思います。前世紀AI技術者がなぜ困っていたのかは、このアーキテクチャの比較が理解できていれば一目瞭然です。

CPUは、なにが得意で、なにが不得意なのか。一方GPUは、何が得意で、何が不得意なのか。この差を理解すると、AI向けに必要なハードウェアとその特性が見えてきます。

あと、忘れてならないのは、NVIDIA社が提供するハードウェアです。GPU搭載ハードウェアがありますが、どうのようなシーンに対して、どのようなNVIDIA社のハードウェアが必要なのかを理解しておく必要があります。

GPUにおける高速通信など、AIにまつわるハードウェアコンポーネントとそのテクノロジーの理解が必要です。

ちなみに、前世紀AIでは、当然、CPUで計算していたので、GPUは、グラフィック用途に限定されていたわけですから、AIの世界では、CPUとGPU間の処理がどうのこうのなど、誰も注目していませんでした。

前世紀のAI技術者で注目されていたのは、せいぜい、CPU動作周波数とコンパイラの最適化オプションぐらいです。32ビットx86 CPUの動作周波数が300MHzから450MHzになって大喜びし、旧DEC社(現HPE)のAlpha 64ビットプロセッサが500MHzでも「スパコンで利用されている64ビットCPUと同じ周波数だから爆速!」と言われていた時代です。そんな低速なシステムで、AIの複雑な問題を解決できるわけもなく、残念ながらAI技術者の誰も、マシン筐体に装着されているGPUに着目していなかったというのは、ある意味、「灯台下暗し」だったと言わざるを得ません。

■ ソフトウェアスタック
HPE20160824004_800_0_72_RGB 4001.jpgAIの開発を行うためのソフトウェアというと、オープンソースのTensorFlowやPyTorchなどが思い浮かびますが、NVIDIA社が提供するAI向けのソフトウェアを知る必要があります。

当然、AI学習向けのソフトウェア、AI学習で作成したAIモデル(いわゆる脳みそに相当するところ)を使うAI推論向けのソフトウェアなど、キチンと用途とソフトウェアの名前を関連付けて覚えておく必要があります。

NVIDIAのAIソリューションは、ソフトウェアスタックがあり、様々なコンポーネントが存在します。当然、医療向け、ロボット向け、製造業向けなど、その業種ごとのNVIDIAのソフトウェアがあるので、どのソフトウェアが、どの業界で利用されるのか、どういったシーンで利用されるのかを理解しておく必要があるかと思います。

これもちなみに、前世紀のAIでは、当然、AI向けのGPUプログラミングなどもなく、一生懸命CPUのマルチスレッドプログラミングのノウハウを勉強し続けるという悪夢のような作業と、コンパイルオプションを付与することによる最適化バイナリの生成、そして、プログラムロジックの簡素化(あまりディスクの読み書きをしないように配列データをメモリにうまくのせるとか)という、不毛の作業の連続でした。

今となっては、Pythonプログラミングで、科学計算ライブラリのSciPyや、数値計算、多次元配列などを取り扱えるNumPyもありますし、NVIDIA CUDAツールキットで並列プログラミングもできてしまいます。NGC(NVIDIA GPU Cloud)カタログとか、HPE Private Cloud AIでも採用されているNVIDIA AI Enterpriseもありますし、前世紀に比べれば、GPUを駆使できるAI開発環境が滅茶苦茶整っているといっていいでしょう。

■AIデータセンター
HPE20191222070_800_0_72_RGB 13305.jpgAIを処理するには、GPUサーバーが必要ですが、そのGPUサーバーを設置する施設がどうあるべきなのか、これも非常に重要です。単純に、処理性能が高いものが欲しいとよく言われますが、処理性能を出すには、サーバー自体の冷却技術もありますし、サーバーの電源、風の流れという観点でのサーバーラックの在り方といった、AIデータセンターとサーバーの物理的な施設を語れないといけません。そのようなAIデータセンターに納入されるNVIDIA社提供のAI 用のコンピューティング プラットフォーム、ネットワーク、ストレージ機器​がどういったものなのか、さらに、エネルギー効率といった観点も重要です。​

NVIDIA社の製品に限らず、AIサーバー基盤では、様々なコンポーネントが絡み合うため、効率的なシステムを導入するには、こういった構成がおすすめですよという、いわゆる「リファレンス・アーキテクチャ(RA)」 が存在します。

RAは、推奨設計ドキュメントであり、AI用途を目的とした場合に最適な製品と技術を組み合わせてシステムを構築するのに有用です。​

ちなみに、前世紀のAI界隈では、本来マシンルームじゃないところにマシンを置いたので空調が弱くてマシンが壊れるとか、AIマシンを自作するかベンダー既製品を買うかといった、今からすれば原始時代のような話ばかりで、RAがどうのこうのという話以前の問題でした。

ちょうど世紀を越える超えないぐらいの時代に、Beowulf(ベオウルフ)クラスターという、いわゆる自作PCをLANでつないで並列計算するというのが流行った時期があったのですが、ベオウルフという響きで流行ったのかわかりませんが、並列計算を手軽にx86サーバーできるという触れ込みで、自作PCを何十台も並べるDIYなリファンレンス・アーキテクチャっぽいものが流行った時期がありました。

まあ、いまのスパコンも、基本的には、このベオウルフクラスターとアーキテクチャ的には全くなにも変わらないのですが、そういったアーキテクチャの観点だと、前世紀のAIクラスターと、現在のGPUクラスターにおいて、RAは、大きく異なります。当然GPUが入っているのでRAが異なるのは当然なのですが、データセンター全体を含めると、大規模なものだと、GPUサーバーの重さや空調の観点も考慮する必要があるので、どのようなハードウェア構成や施設がNVIDIA社のRAなのかを知っておくのは非常に重要です。


■AIクラウド
GettyImages-641193154_800_0_72_RGB 8291.jpgNVIDIA社のAIプラットフォームは、オンプレミスでも、クラウドのように利用できる仕組みが整っています。当然パブリッククラウドでも動作可能ですが、AIクラウド基盤で実際に動作する仮想マシンや、どのようなサービスが提供できるのかを理解する必要があります。

AIクラウドでは、AI特有の「アクティビティ」が存在しますが、逆に言えば、例えば、ミッションクリティカルシステムの絶対に停止してはならないようなリレーショナルデータベースシステムの管理は、AIのアクティビティに入りませんよね。どのようなタイプのものがAIのアクティビティなのか、そして、AIクラウドでは、どういったユースケースがあるのかも把握しておく必要があるでしょう。


​■AI 運用
HPE20191222019_800_0_72_RGB.jpgAIインフラのCPU、メモリ、ディスク、ネットワーク、GPUの管理、監視は欠かせません。当然、それらのリソースを有効活用できなければなりませんが、一般に、AIアプリケーションは、コンテナオーケストレーションで利用する場合や、ジョブ投入やスケジュールでの利用などがあります。

ちなみに、筆者が90年代に自作AIプログラムを実行していた自宅のPC環境では、ジョブが終了するとmailコマンドで自分のメールに通知が行くようにしていました。スケジューリングというよりも、個人で実行するときは、一人なのでそもそもスケジューリングする必要もないので、直接実行していたのですが、終了時間がわからないので、メールで通知するようにしていました。
いまでもジョブスケジューリングなどでジョブが終了すると通知されるような仕組みがありますが、現在は、GPU資源が貴重なので、複数人数でGPUを共同利用するといったことも多く、AIコンテナの起動の自動化や、GPUジョブのスケジュール実行を行う方法が採用されます。GPU資源の有効活用は、物価高のこのご時世、非常に重要だと思います。

■試験自体は、自宅で受験可能、Webカメラで試験監督が監視
HPE20191222015_800_0_72_RGB 13178.jpg試験自体は、日本から受験可能ですが、試験問題や試験システムは英語です。また、試験監督とは英語でチャットや音声会話が可能です。

試験の受験には、身分証明書(英語名が記載されている公的機関が発行したもの、例:パスポート)が必要です。

また、ノートPCのWebカメラで、受験する部屋をぐるっと撮影し、試験監督にチェックしてもらう必要があります。ペン、メモ、ノート類、ディスプレイ、時計、バッグ、リュックなどがあると片付けさせられますし、スマートウォッチやイヤホンも当然装着不可です。なので、受験する部屋には余計なモノを一切なくして、事前に整理整頓にしておく必要があります。もし部屋のモノを動かせないという場合は、会社の会議室などを予約して受験するのもアリだと思います。

ちなみに、筆者は、仕事用のディスプレイが1つと、ゲーミングPCのディスプレイが2つで合計3つのディスプレイがあったので、それらを事前に片付けて、机の下にあったプリンターも片付けて、部屋を机と椅子とノートPCと電気スタンドだけにして、スッカラカンにしました。

■AIそのものやNVIDIAのAIソリューションを語れるようになる
試験勉強というのは、しんどくてつらいですが、NVIDIA社のエントリーの試験ですし、普段ITインフラに携わる方は、聞きなれたインフラの話も多いので、それほど大変ではないと思います。逆に、ソフト開発しかやったことがないという方は、ITインフラの知識が求められるので、聞きなれない単語も多いかもしれませんが、キチンとした自習用トレーニング追加マテリアル(Additional Materials)があるので安心です。

そして、この試験に合格すると、受験者は、NVIDIA製品に限らず、そもそもAI が現実社会にどのような変化をもたらすのかを説明できるようになります。また、AIに関連する用語や概念、AIデータセンターのあるべき像や、GPUコンピューティングの活用例、 データ センターの運用例を説明できるようになるため、AIに関する知識がない顧客(経営層やIT部門)に対して、非常に基礎的なAIに関するアドバイスができるようになります。

AIインフラに携わるIT部門の方にはもってこいの資格ですし、AI開発に携わる方もNVIDIA製品やAIインフラの知識を得てスキルアップできるチャンスですので、是非、チャレンジしてみてください。

KOGA MASAZUMI (@masazumi_koga)

0 感謝
作者について

Masazumi_Koga

Hewlett Packard Enterprise認定のオープンソース・Linuxテクノロジーエバンジェリストの古賀政純が技術情報や最新トピックなどをお届けします。保有認定資格:CCAH(Hadoop)/RHCE/RHCVA/Novell CLP/Red Hat OpenStack/EXIN Cloud/HP ASE DataCenter and Cloud等