- Community Home
- >
- HPE Community, Japan
- >
- HPE Blog, Japan
- >
- AI・ビッグデータの実際のシステム構成を知る(MapR + HPE Apollo)
カテゴリ
Company
Local Language
フォーラム
ディスカッションボード
フォーラム
- Data Protection and Retention
- Entry Storage Systems
- Legacy
- Midrange and Enterprise Storage
- Storage Networking
- HPE Nimble Storage
ディスカッションボード
ディスカッションボード
ディスカッションボード
ディスカッションボード
フォーラム
ディスカッションボード
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
- BladeSystem Infrastructure and Application Solutions
- Appliance Servers
- Alpha Servers
- BackOffice Products
- Internet Products
- HPE 9000 and HPE e3000 Servers
- Networking
- Netservers
- Secure OS Software for Linux
- Server Management (Insight Manager 7)
- Windows Server 2003
- Operating System - Tru64 Unix
- ProLiant Deployment and Provisioning
- Linux-Based Community / Regional
- Microsoft System Center Integration
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
Discussion Boards
フォーラム
ブログ
AI・ビッグデータの実際のシステム構成を知る(MapR + HPE Apollo)
Hadoopディストリビューションには、MapR、Cloudera、Hortonworksなどがありますが、HPEでは、これらのディストリビューションを使ったビッグデータ基盤の提供を日本でも積極的に行っています。そのうちの一つにMapRがあります。今回は、MapR版のHadoopとHPE Apolloサーバーの組み合わせに関する技術文書をざっくり解説します。
解説する技術文書(英語)は、以下から入手できます。
HPE Apollo Gen10サーバーとMapR版Hadoopの組み合わせに関する技術文書:「HPE Reference Architecture for Real-Time streaming analytics with HPE Elastic Platform for Analytics (EPA) and MapR Data Platform (MapR)」
上記の技術文書で登場する各種コンポーネントやシステム構成をピックアップしていくつか挙げてみます。
MapR Data Platformって何?
MapR Data Platformは、AIや分析、リアルタイムのイベントストリーミングを行うためのデータプラットフォームを実現する基盤ソフトウェアです。様々な種類のデータを保管、管理、分析が可能です。ファイル、オブジェクト、テーブル、イベントなどのさまざまなデータタイプを管理でき、データがエクサバイト級に膨れ上がるような場合でも、スケールアウトメリットを活かして高速に処理します。
MapR XD Distributed File and Object Store
構造化データと非構造化データの両方を管理します。 エクサバイト級のデータや、数兆個のファイルを取り扱えます。MapR版のHadoopはもちろん、AIや機械学習など、幅広いワークロードに対応しています。
MapR-Event Store for Apache Kafka
イベントストリーミングシステムです。Apacheコミュニティが提供するイベントストアではKafka(カフカ)が有名です。Apache Sparkに含まれているSpark Streamingなどの一般的なストリーミングフレームワークと組み合わせて利用可能です。MapR Data Platformにおいて、パブリッシュとサブスクライブと呼ばれる統合メッセージング環境を提供します。
Spark Streaming
Spark StreamingはApache Sparkにおけるサブプロジェクトの1つで、マイクロバッチ処理を使用し、リアルタイムストリーム分析を実現します。
エッジ機器からコアデータセンターへ流れるビッグデータ
一般に、顧客の様々な活動(ユーザーの行動)やビジネストレンドのリアルタイムの分析を行うには、ストリーミング処理が利用されます。数千のデータ発生源から生成されたストリーミングデータ(ログデータ、クリックストリームデータ、SNSデータ、金融取引データ、地理データ、機器のテレメトリデータ等)のリアルタイム分析では、フロントエンドとなるエッジ機器やクライアントからバックエンドとなる巨大分析基盤(コアデータセンター)に至るまで、一貫したデータフローの制御が必要です。これらのデータの流れは、データパイプラインと呼ばれます。
コアデータセンターで利用される機器
リアルタイムストリーミング分析用の基盤は、HPE Apolloサーバーを使用し、大量データの取り込み、分析、およびデータの視覚化が行われます。各コンポーネントと機器は以下のとおりです。
- HPE EdgeLineシリーズ:センサーによる大量のデータの取り込みとさまざまなリアルタイムデータの生成
- Kafka/Spark Streaming on HPE Apollo 2000 Gen10:構造化および非構造化データをデータパイプラインにストリーミング
- MapR-FS on Apollo 4200 Gen10:構造化および非構造化データを永続的に保管
- AI/Spark MLlib/TensorFlow/PyTorch on Apollo 6500 Gen10:人工知能、機械学習、深層学習による知的情報処理、および可視化
具体的なラック構成図は?
データストリーミングを行う機器は、ラックに搭載されます。一般に、ラック一の一番下には、無停電電源装置(UPS)などを設置しますが、USPがない場合もあります。今回は、分散ファイルシステムでデータを保管しておくApollo 4200 Gen10、GPUを搭載したAI・機械学習・深層学習を行うApollo 6500 Gen10、そして、ストリーミング処理を行うApollo 2000 Gen10で構成しています。また、スイッチ類は、通常、ラックの一番上に設置します。このため、トップオブラックスイッチ(Top-of-Rack Switch、通称、ToRスイッチ)と呼ばれます。複数ラックにまたがるような、巨大なシステムの場合は、通常、複数ノードでのLinuxの操作や一斉電源ON、一斉電源OFFなどが必要になるため、ハードウェア・OSの管理ノード(DL360 Gen10等)を導入します。
実際のラックにサーバー機器とネットワーク機器を搭載した図を見ると、より実感できると思います。
MapR on HPE Apolloのソフトウェアコンポーネントとハードウェア構成をざっくりとご紹介しました。リアルタイムデータ処理のプラットフォームでは、ストリーミング分析がキーになります。ストリーミング分析は、リアルタイムでのビジネス洞察の獲得には欠かせないものになっています。
本技術文書では、MapR Data Platform on HPE Apolloのシステム構成例を示しましたが、業務に適したHadoopクラスターの設計は、通常、HPEのPointnext部隊(インフラ導入の技術コンサルティング・構築の精鋭部隊)によるIT部門向けの有償の導入ワークショップ、構築の技術コンサルティングにより、お客様と時間をかけて設計します。HPEのビッグデータ精鋭部隊によるMapRの導入経験も豊富で、様々な日本のお客様でMapR on HPEサーバー基盤を導入頂いています。
MapR版Hadoopは、評価版ライセンスキーを入手し、テストすることが可能です。筆者が執筆したビッグデータ・機械学習の書籍「Hadoopクラスター構築実践ガイド」では、MapR版Hadoopの入手、構築、使用法を記載しています。Spark Streamingの基礎や、Spark GraphXでフライトデータ(グラフデータ)の処理を行うシステムなど、具体例も豊富に掲載していますので、是非、MapRを触って理解を深めてください。
Masazumi Koga (Twitter: @masazumi_koga)
- ブログへ戻る
- より新しい記事
- より古い記事
- kkuma 場所: HPE Linux技術情報サイトの歩き方~CentOS代替ディストビューション情報について~
- 土井康裕 場所: 篠田の虎の巻「PostgreSQL 15 GA 新機能検証結果」公開!
- MiwaTateoka 場所: Windows Server 2019のCertificate of Authenticity (C...
- 今更感 場所: 【連載】導入前のアドバイス – アレイコントローラー
- OEMer 場所: タイトル: HPE OEM Windows Serverのライセンスに関する質問にすべて回答しましょ...
- いわぶちのりこ 場所: 【連載】次世代ハイパーコンバージド「HPE SimpliVity」を取り巻くエコシステム ー 第3回...
- Yoshimi 場所: ジェフェリー・ムーア氏からのメッセージ - 未訳の新著 "Zone To Win" を解説! (2)...
- Yoshimi 場所: ジェフェリー・ムーア氏からのメッセージ - 未訳の新著 "Zone To Win" を解説! (...
- 三宅祐典 場所: 「HPE Synergy」 発表! ~ (3) この形・・・ ブレードサーバー??