HPE Blog, Japan
1752685 メンバー
5590 オンライン
108789 解決策
新規ポスト
Masazumi_Koga

AI・ビッグデータの実際のシステム構成を知る(MapR + HPE Apollo)

Hadoopディストリビューションには、MapR、Cloudera、Hortonworksなどがありますが、HPEでは、これらのディストリビューションを使ったビッグデータ基盤の提供を日本でも積極的に行っています。そのうちの一つにMapRがあります。今回は、MapR版のHadoopとHPE Apolloサーバーの組み合わせに関する技術文書をざっくり解説します。

解説する技術文書(英語)は、以下から入手できます。

HPE Apollo Gen10サーバーとMapR版Hadoopの組み合わせに関する技術文書:「HPE Reference Architecture for Real-Time streaming analytics with HPE Elastic Platform for Analytics (EPA) and MapR Data Platform (MapR)

上記の技術文書で登場する各種コンポーネントやシステム構成をピックアップしていくつか挙げてみます。

MapR Data Platformって何?

MapR Data Platformは、AIや分析、リアルタイムのイベントストリーミングを行うためのデータプラットフォームを実現する基盤ソフトウェアです。様々な種類のデータを保管、管理、分析が可能です。ファイル、オブジェクト、テーブル、イベントなどのさまざまなデータタイプを管理でき、データがエクサバイト級に膨れ上がるような場合でも、スケールアウトメリットを活かして高速に処理します。

MapR XD Distributed File and Object Store

構造化データと非構造化データの両方を管理します。 エクサバイト級のデータや、数兆個のファイルを取り扱えます。MapR版のHadoopはもちろん、AIや機械学習など、幅広いワークロードに対応しています。

MapR-Event Store for Apache Kafka

a00066812enw.jpg

 

イベントストリーミングシステムです。Apacheコミュニティが提供するイベントストアではKafka(カフカ)が有名です。Apache Sparkに含まれているSpark Streamingなどの一般的なストリーミングフレームワークと組み合わせて利用可能です。MapR Data Platformにおいて、パブリッシュとサブスクライブと呼ばれる統合メッセージング環境を提供します。

 

Spark Streaming

Spark StreamingはApache Sparkにおけるサブプロジェクトの1つで、マイクロバッチ処理を使用し、リアルタイムストリーム分析を実現します。

エッジ機器からコアデータセンターへ流れるビッグデータ

一般に、顧客の様々な活動(ユーザーの行動)やビジネストレンドのリアルタイムの分析を行うには、ストリーミング処理が利用されます。数千のデータ発生源から生成されたストリーミングデータ(ログデータ、クリックストリームデータ、SNSデータ、金融取引データ、地理データ、機器のテレメトリデータ等)のリアルタイム分析では、フロントエンドとなるエッジ機器やクライアントからバックエンドとなる巨大分析基盤(コアデータセンター)に至るまで、一貫したデータフローの制御が必要です。これらのデータの流れは、データパイプラインと呼ばれます。

a00066812enw02.jpg

コアデータセンターで利用される機器

リアルタイムストリーミング分析用の基盤は、HPE Apolloサーバーを使用し、大量データの取り込み、分析、およびデータの視覚化が行われます。各コンポーネントと機器は以下のとおりです。

  • HPE EdgeLineシリーズ:センサーによる大量のデータの取り込みとさまざまなリアルタイムデータの生成
  • Kafka/Spark Streaming on HPE Apollo 2000 Gen10:構造化および非構造化データをデータパイプラインにストリーミング
  • MapR-FS on Apollo 4200 Gen10:構造化および非構造化データを永続的に保管
  • AI/Spark MLlib/TensorFlow/PyTorch on Apollo 6500 Gen10:人工知能、機械学習、深層学習による知的情報処理、および可視化a00066812enw-03.jpg

     

具体的なラック構成図は?

データストリーミングを行う機器は、ラックに搭載されます。一般に、ラック一の一番下には、無停電電源装置(UPS)などを設置しますが、USPがない場合もあります。今回は、分散ファイルシステムでデータを保管しておくApollo 4200 Gen10、GPUを搭載したAI・機械学習・深層学習を行うApollo 6500 Gen10、そして、ストリーミング処理を行うApollo 2000 Gen10で構成しています。また、スイッチ類は、通常、ラックの一番上に設置します。このため、トップオブラックスイッチ(Top-of-Rack Switch、通称、ToRスイッチ)と呼ばれます。複数ラックにまたがるような、巨大なシステムの場合は、通常、複数ノードでのLinuxの操作や一斉電源ON、一斉電源OFFなどが必要になるため、ハードウェア・OSの管理ノード(DL360 Gen10等)を導入します。a00066812enw-04.jpg

実際のラックにサーバー機器とネットワーク機器を搭載した図を見ると、より実感できると思います。a00066812enw-05.jpg

 

MapR on HPE Apolloのソフトウェアコンポーネントとハードウェア構成をざっくりとご紹介しました。リアルタイムデータ処理のプラットフォームでは、ストリーミング分析がキーになります。ストリーミング分析は、リアルタイムでのビジネス洞察の獲得には欠かせないものになっています。

本技術文書では、MapR Data Platform on HPE Apolloのシステム構成例を示しましたが、業務に適したHadoopクラスターの設計は、通常、HPEのPointnext部隊(インフラ導入の技術コンサルティング・構築の精鋭部隊)によるIT部門向けの有償の導入ワークショップ、構築の技術コンサルティングにより、お客様と時間をかけて設計します。HPEのビッグデータ精鋭部隊によるMapRの導入経験も豊富で、様々な日本のお客様でMapR on HPEサーバー基盤を導入頂いています。

MapR版Hadoopを触ってみたい
Hadoop_Book.jpg

MapR版Hadoopは、評価版ライセンスキーを入手し、テストすることが可能です。筆者が執筆したビッグデータ・機械学習の書籍「Hadoopクラスター構築実践ガイド」では、MapR版Hadoopの入手、構築、使用法を記載しています。Spark Streamingの基礎や、Spark GraphXでフライトデータ(グラフデータ)の処理を行うシステムなど、具体例も豊富に掲載していますので、是非、MapRを触って理解を深めてください。

Masazumi Koga (Twitter: @masazumi_koga)

0 感謝
作者について

Masazumi_Koga

Hewlett Packard Enterprise認定のオープンソース・Linuxテクノロジーエバンジェリストの古賀政純が技術情報や最新トピックなどをお届けします。保有認定資格:CCAH(Hadoop)/RHCE/RHCVA/Novell CLP/Red Hat OpenStack/EXIN Cloud/HP ASE DataCenter and Cloud等