HPE Blog, Japan
1770967 メンバー
2504 オンライン
109003 解決策
新規ポスト
Masazumi_Koga

DXに必要なデータ基盤とは? ~ 信頼と実績のHPE Ezmeral(エズメラル) ~

DX.png近年、生成AIの活用など、国内外問わず、データとAIを活用したデジタルトランスフォーメーション(DX)の波が大きく押し寄せています。社内で生成されるあらゆるデータを取り込み、分析することで洞察を得て、今までにないビジネス上の意思決定が可能になっています。

また、オンプレミスのIT基盤やパブリッククラウドにまたがった「ハイブリッドクラウド環境」で、様々な種類のデータを分析し、人工知能(AI)、および、機械学習を活用することも、多くの企業において、DX実現の手段として検討されています。

過去の社内データだけでなく、現在生成されている現場のデータやSNSのデータ、アクセスログなどを活用し、状況を瞬時に把握し、ビジネス戦略を立案・実行します。リアルタイムに発生する様々なデータをビジネスの意思決定に駆使することで、より的確な判断を下すことができるようになるわけです。

例えば、小売業界では、顧客の行動や傾向をリアルタイムで把握することがとくに重要です。ネットショッピングや店舗での買い物といったデータを収集し、その場で分析することで、顧客のニーズや好みを理解し、適切なタイミングでターゲティングされたプロモーションやオファーを提供することができます。顧客満足度の向上は、まさに、ビッグデータ分析によって実現できるといっても過言ではありません。

製造業においても、リアルタイムのデータ分析が行われています。生産ラインに設置されているセンサーや監視装置からのデータをリアルタイムで収集、かつ、分析することで、生産プロセスの効率UPや品質向上を妨げている問題などを早期に検出し、かつ、即座にそれらの問題に対応するために、ビッグデータ・AIを活用したIT基盤が活用されています。生産効率向上、不良品発生率の低下に貢献するIT基盤です。

このように、データ分析・活用は、ビジネス推進において非常に重要な業務ですが、そのデータ分析や活用を可能にするためには、そのデータ分析・活用に適したIT基盤を導入しなければなりません。

■データ駆動型のビジネスを推進するIT基盤に必要なものとは?

単一の使いやすいビッグデータ基盤.png分散したハイブリッドクラウド環境から流れ込むデータの価値を分析し、人工知能と機械学習を活用することで、さまざまなデータソースから得られる情報を統合・解析し、新たな洞察力を得ることができます。例えば、膨大なデータがエッジデバイスやクラウド上に散在している場合でも、これらのデータを統合的に分析することで、ビジネス上のパターンやトレンドを把握し、競合他社よりも優位な戦略を立案することができるでしょう。

このようなデータ駆動型アプローチは、ビジネスの意思決定において競争優位性をもたらす重要な要素となっており、組織がデータを有効に活用し、リアルタイムの洞察を得ることで、より成功に近づけることができるのです。

しかし、多くの組織は自社が持つ膨大なデータと実際に利用できるデータとの間にギャップを感じています。データはしばしばエッジ、クラウド、データレイク、データウェアハウス(DWH)に分散・孤立しており、何かあるたびにアクセス権が要求され、必要なデータを別のシステムに手動でコピーしなければならないといった煩雑な作業を強いられます。この煩雑な作業によって、データサイエンティストの生産性は、著しく制約され、結果的に、「データはあるけれども、使いにくいIT基盤」になってしまいます。

また、データの偏りや、データの機密性保護等により、自社の既存事業の業務プロセスの多くにおいて、パブリッククラウドの利用でも複雑になり、管理コストがかかるといった声もあります。そして、社内のいたるところにデータが存在するため、セキュリティ、および、コンプライアンスの維持管理の責任が常にIT部門につきまといます。

一般に、データ活用のためのIT基盤では、非常に多くの技術要素がありますが、特に、巨大データを取り扱う大規模システムでは、以下の要素が必要とされます。

  1. スケールアウト型の分散ファイルシステム(例:複数の物理サーバーを並べて、一つのファイルの入れ物を作る)

  2. スケールアウト型の分散データベース(例:物理サーバーを追加することで、データベースの性能をリニアに向上させる)

  3. データ保護(例:データの利用者を限定するだけでなく、機密データの一部をマスクしてユーザに提供)

  4. データ加工処理、分析、人工知能、機械学習への対応(例:独自開発アプリが動作し、データ基盤が、知的情報処理のIT基盤のコアとして振る舞う)

  5. 利便性(例:地理的に離れているデータ基盤同士でも、利用者が、すぐにそのデータにアクセスできる)

■オンプレミスとクラウドの両方で動かせるビッグデータ基盤ソフトウェア「HPE Ezmeral Data Fabric - Customer Managed」

EDF-CM.pngHPE Ezmeral Data Fabric - Customer Managed(通称:EDF-CM、旧称:MapR)は、あまり知られていませんが、オンプレミスとクラウドのどちらでも動きます。EDF-CMは、「オンプレ限定でしょ?」と思われがちなのですが、クラウドでも普通に動きます。VPNソフトウェア(例:Wireguard等)を使って、オンプレミス上の物理サーバーで構成されたEDF-CMクラスターと、パブリッククラウド上のLinux VMにインストールされたEDF-CMクラスター同士で、よく使うLinuxのコマンドを使って、ファイルのコピーなどのやりとりも可能です。勿論、高可用性NFSサービスも標準で搭載しているので、NFSベースのNASで、かつ、インメモリ分析用のSparkもEzmeral Ecosystem Packsに含まれているため、データ基盤の導入の手間を大幅に簡素化します。

また、NFS経由でデータを書き込むことができるサードパーティ製のAIソフトウェアのデータ保管庫にもなります。ニューラルネットワーク等を含むSpark MLlibなどの機械学習ライブラリも、EDF-CMクラスターで普通に利用可能です。そのため、従来型の分析だけでなく、最新のAI・機械学習アプリと統合利用できることから、多くの企業で、ビジネスの洞察を得るIT基盤としてEDF-CMが採用されています。

サイロ化したデータ基盤から、使いやすいデータ基盤へ.png最近では、ビッグデータの活用の観点から、エッジコンピューティング(業務部門に近い機器からのデータの発生)、パブリッククラウドでの加工済みデータの保存、機密性の高い重要なデータのオンプレミス基盤での保持といった、「データの断片化・サイロ化」を防ぐことが重要視されています。エッジとは、製造現場やIoTデバイスなど、データが発生する現場に近い場所を指します。データをエッジとクラウドの間でシームレスに移動・同期することで、リアルタイムなデータドリブンな洞察を可能にします。EDF-CMは、地理的に離れた複数の場所のデータを相互に簡単にアクセスできる仕組み(グローバルネームスペース機能)が搭載されているため、ユーザーにとっては、地理的に離れた複数拠点で散在しているEDF-CMを1つのデータ基盤としてみなすといった「グローバルデータビュー」が得られます。

また、開発者やデータサイエンティストは、ラベリングや深層学習を行う準備として、データセットをセグメント化して、データを整理できます。また、ポリシーベースの管理機能や単一障害点の排除により、複数の物理ノードから構成されるEDF-CMクラスター同士でデータをミラーしたり、複数ラックにデータを自動的にレプリケーションすることもできる上、ディスク障害等により、レプリカ(複製されたデータ)が失われた場合でも、自己修復機能によって、データは保護されます。

■超高速分散ファイルシステム

MCS_on_EDF-CM.pngEDF-CMは、ソフトウェア定義型ストレージ(SDS)としての側面である拡張性を有しているため、データ量が増えて、処理すべきタスクが増えても、物理サーバーを増やして、性能をスケールできます。データソースの種類や量の増加、新たな洞察を得るためのツールの追加、容量の拡張といった、ビッグデータ分析基盤に必須の機能を提供しつつも、ユーザーやIT部門にとって、管理が煩雑にならない仕組みを提供しています。EDF-CMは、分散型のファイルシステムを持っており、複数のノードにデータを分散して保存し、冗長性を持たせることができます。また、データのアクセスが高速に行えるため、大量のデータを高効率で管理することができます。

ちなみに、高速分散ファイルシステム上にユーザー用のデータボリュームを作ることが出来ますが、コマンドラインだけでなく、ブラウザ経由で、管理GUI画面のマウス操作でも簡単に作成できます。ボリュームのレプリカ数の設定や、あまり使用されないデータを別のS3クラウドストレージに逃がすといった「データの階層化」も管理画面から簡単に設定可能です。

■分散型NoSQLデータベースへのクエリや、オープンソースツールの利用、API経由での利用も可能

EDF-CMは様々な機能を提供し、OSSも動く.pngEDF-CMは、組み込みのセキュリティ機能に加え、データをマスキングするといった機能や、データの保護機能、そして、GUIによる各種管理機能を提供します。例えば、データサイエンスを手掛ける部門は、EDF-CMによるデータ分析のIT基盤の管理業務ではなく、データパイプライン(=データの一連の処理の流れ)の作成や管理、および、作成したデータパイプラインを使ったデータ処理業務に集中できます。EDF-CMでは、Hadoop関連のツールや、SQLクエリエンジンのApache Drill、そして、APIなどを利用し、エンジニアや科学者は、長年使い慣れたLinuxで動く各種オープンソースのツール類や開発言語を使ってデータに直接アクセスできます。EDF-CMは、分散型のデータベースであるEDF Database(旧称、MapR Database)を提供しているので、非構造データに対して、Apache DrillなどのSQLクエリエンジンを使って、高速に操作できます。

DXを進める際、よくあるのが、柔軟性を確保するために、あらゆるニーズに対応できるようにしておきたいとった声があります。そのため、データ基盤に対する機能要求も非常に多い場合が少なくありません。

「SQLクエリを動かしたい、Hadoopアプリを動かしたい、Pythonアプリを動かしたい、Sparkアプリを動かしたい、深層学習のアプリを動かしたい、だけど、NFSのNASにもなってほしいし、S3互換ストレージにもなってほしい。1台マシンが壊れても、動き続けてほしい」

こういった贅沢なニーズに対しても、EDF-CMならば、1つのEDF基盤で全て実現できるので、そういった様々なニーズに応えなければならない統合データ基盤のDXにはもってこいです。

EDF-CMは、旧MapR社が提供していた時代から含めても、日本でも非常に多くの導入実績を誇るビッグデータ基盤ソフトウェアです。特に、使いやすいNFSストレージになれる点や、Hadoopも動くのに、Hadoopの分散ファイルシステム(HDFS)よりも圧倒的な性能を誇る点が評価されています。

EDF-CMなら、標準的なSATA SSDを搭載できるx86サーバー4台(1台のサーバーあたり、OS用SSDはRAID 1構成で2本、かつ、データ用SSDは非RAIDで最低3本)から始められます。是非、小規模な台数のEDF-CMクラスターから小さく始めて、データ活用を始めてみてください。

Masazumi Koga (Twitter:  @masazumi_koga)

【書籍のご案内】HadoopとMapRと機械学習を学べる本

Hadoop_Book.jpgMapR(現在の名称:HPE Ezmeral Data Fabric - Customer Managed)は、Hadoop互換でありながら、Hadoop HDFSHadoop分散ファイルシステム)よりも圧倒的に高速なMapRファイルシステムを搭載しています。その非常に高いI/O性能に加え、高可用性NFSサービスを提供する単純なNASとしても利用できます。それらの使い勝手の良さから、大手自動車会社の自動運転車のAI開発基盤や、インド政府のマイナンバーシステムで採用されているデータ基盤ソフトであり、日本国内でも100社以上の導入実績を誇ります。本書では、その豊富な導入実績をもとに、頻繁に利用されている基礎技術を「Hadoopクラスター構築実践ガイド」に収録しています。主に、以下に挙げるMapRとその上で動くオープンソースソフトウェアのノウハウを学べます。
Hadoop v3とMapR v6の構築手順
運用管理手法
Spark:SQL、StreamingGraphXRMLlibの使用法
ニューラルネットワークによる学習
データベース操作(HiveImpalaHBaseMapR-DBPig
データのインポートとエクスポート(SqoopFlume
フライトデータ分析、植物の分類、おすすめ映画のタイトル表示、Wikipediaドキュメント分類といった具体例をもとに、ステップバイステップで学べる一冊です。

0 感謝
作者について

Masazumi_Koga

Hewlett Packard Enterprise認定のオープンソース・Linuxテクノロジーエバンジェリストの古賀政純が技術情報や最新トピックなどをお届けします。保有認定資格:CCAH(Hadoop)/RHCE/RHCVA/Novell CLP/Red Hat OpenStack/EXIN Cloud/HP ASE DataCenter and Cloud等