HPE Blog, Japan
1825754 メンバー
2403 オンライン
109687 解決策
新規ポスト
hkomori

超パワフル! HPE Ezmeral Data Fabricのここがスゴイ! ~ 他社を凌駕する製品特徴をざっくりご紹介 ~

HPE Ezmeral Data Fabricは、HPEのデータファーストモダナイゼーションを推進する戦略の中でデータストアの役割の担う製品です。分析するデータの保存・管理から、データの加工・分析までできる基盤を提供しています。

今回は、HPE Ezmeral Data Fabricの基本的な機能であるデータの保存・管理機能の特徴をざっくりとご紹介します。

ストリーミングデータからオブジェクトデータまで様々データを保存・管理

保存・管理したいデータにはいろいろな種類があります。HPE Ezmeral Data Fabricなら、それぞれのデータに応じた保存・管理方法を提供し、一つの基盤でいろいろな種類のデータを保存・管理できます。

装置から連続的に出てくるストリーミングデータ

連続的に流れてくるデータを途切れることなく確実に保存するには、可用性を保ちつつデータを一時的に保存する仕組みと、そこから高速にデータを取り出すストリーミングデータ専用の仕組みが必要です。HPE Ezmeral Data Fabric Streamsは、ストリーミングデータを保存・管理する仕組みとストリーミングデータを扱うアプリケーション用のAPIを提供し、ストリーミングデータの保存・管理する仕組みの構築を実現します。

カメラからの静止画や動画データ

Deep Learningで主に使われる静止画や動画のデータは、ファイルとして保存しておくことが少なくありません。そのため、どのような状況で取得したデータなのかが後でわかるように保存しておかないと、分析する時に必要なデータを探せなくなってしまいます。このため、タグという形でデータの属性を記述できるオブジェクトデータとして保存しておくと便利です。例えば自動運転の開発のために取得した動画なら、雨が降っていたか、ライトを点けていたか、走行したのが街中なのか山道なのかなどをタグとして記述しておくことで、後から分析したい動画を用意に検索できるようします。HPE Ezmeral Data Fabric Object Storeは、S3互換のオブジェクトストアの機能を提供しており、格納したデータにタグをつけることが可能です。

CSVデータやデータベースのデータ

CSVやデータベースに格納された、すでに整形されているデータは、高速に検索できる状態で保存しておくことが望ましいです。CSVファイルはEzmeral Data Fabric filesystemに保存しておいて、DrillHiveから検索することができます。すでにデータベースに格納されているデータは、Ezmeral Data Fabric Databaseに、キーバリュー型もしくはJSON形式で格納しておけます。

ログファイル

ログファイルのうち、分析に必要なのは最近のファイルだけで、あまりアクセスされない古いファイルは、通常、コスト効率の良いストレージにアーカイブされます。Ezmeral Data Fabric filesystemは、データ階層化の機能を持ち、自動的に古いファイルをコスト効率の良いストレージに移動できます。 

このようにHPE Ezmeral Data Fabricなら、複数の製品を組み合わせるのではなく一つの基盤で様々なデータに適した方法でデータを保存・管理できます。

 blog2_1.png

 

 

優れたIO性能

いろいろなデータ保存・管理の機能を紹介しましたが、全ての基盤となっているのは Ezmeral Data Fabric File Storeです。このFile Storeは、Hadoopのファイルシステムである HDFSの欠点である低い IO性能を解決するために開発されました。HadoopHDFSが遅い原因は、Javaで書かれているためにガベージコレクションが発生してしまうことと、追記型のファイルアクセスだけを想定しているためランダムIOができないことにあります。

Ezmeral Data Fabric File Storeは、HDFSAPI互換性を保ちつつ、ランダムIOが可能で、かつ、C言語で実装されているため、大幅にIO性能を向上させています。さらに、Linuxのファイルシステムを通さずに、ディスクデバイスを File Storeが直接管理することで、より効率的なIOを実現しているのです。これらの実装によるIO性能の向上は、ベンチマーク結果で明確に示されています。

 

グローバルでのデータ共有を簡単に実現

最近多くなっているのがグルーバルもしくは会社内の複数拠点でデータを共有するという使い方です。グローバルの1つの拠点でクラスタを作成し。どの国からもこのクラスタにアクセスすればデータ共有は実現できますが、これではクラスタが存在しない拠点からのアクセスは遅くなってしまいます。

通常最も頻繁にアクセスするのは自分の拠点で発生したデータですので、自分の拠点のデータは拠点内のクラスタに保存しておくことがアクセス性能の向上につながります。Ezmeral Data Fabricは、このように各拠点に配置されたクラスタ上のデータをあたかも1つのクラスタ上のデータであるかのようにアクセスすることができるグローバルネームスペースという機能を持っています。具体的には、グローバルネームスペースによってクラスタごとにマウントポイントを作ることができ、そのまま各クラスタ上のデータにアクセスすることができます。頻繁にアクセスする自拠点のデータヘは速くアクセスし、他拠点へのデータへも性能は落ちるものの自拠点のデータへアクセスするのと同じ方法でアクセスできるようになることで、データ活用の方法が大幅に広がります。

blog2_2.png 

 

このように Ezmeral Data Fabricは様々な種類のデータに適した保存・管理方法を優れたIO性能で提供し、グローバルレベルでの共有も可能にするという、データ活用の時代に求められているデータストアと言えます。

0 感謝
作者について

hkomori

日本ヒューレット・パッカードで、サーバー、ビッグデータ、OEM関連のプリセールスを担当しています。