HPE Blog, Japan
1825010 メンバー
3690 オンライン
109678 解決策
新規ポスト
Masazumi_Koga

ビッグデータって一体何?

20220623_情報爆発.pngみなさんは、ビッグデータという言葉を聞いて、何を想像しますか?膨大な量のデータ、PCに入りきらない巨大な動画ファイル、大容量ハードディスク、または、米国の巨大IT企業や有名な広告業、巨大流通業、先進技術を探求する宇宙産業、さらには、最近話題の「人工知能(AI)」などを想像する人もいるかもしれません。「なんだか耳にするけど、実際には、見たことないや」という方も多いかと思います。

ビッグデータは、たしかに、「膨大な量のデータ」というイメージが付きまといます。ビッグデータは、PCやサーバー数台に入る、入らない、というレベルではなく、実際、大量のデータを保管・処理するデータセンターという建物自体を増設しなければならないレベルに到達しようとしています。マシンルーム全体がハードディスクで埋め尽くすような環境、数百万人のネットショッピングの注文データやクレジットカードの取引情報などが巨大な建物の中にあるハードディスクやSSDのお化けに入っていると想像してみてください。

身近な例では、FacebookやTwitterに世界中の人々が動画や写真を投稿していると想像すると、とてつもなく膨大な量のデータが蓄積されていることが容易に想像できるかと思います。

しかし、ビッグデータとは、そのような膨大な量のデータを蓄積・処理することだけを指す言葉なのでしょうか?日本の総務省が公表している「平成24年版 情報通信白書のポイント」に「ビッグデータとは何か?」が記載されています。

総務省の「平成24年版 情報通信白書のポイント」
http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/html/nc121410.html

上記の情報通信白書のポイントの「図表2-1-4-1 ビッグデータを構成する各種データ(例)」を見ると、ビッグデータとは、センサーデータ、ログデータ、オペレーションのデータなどの他に、普段私達が利用している電子メールやオフィス文書などもビッグデータを構成するデータに含まれています。

ここでは、ビッグデータを「事業に役立つ知見を導出するためのデータ」としています。サイズやファイル数といった量的なものだけでなく、利活用という質的なことに重要な意味を持つデータを「ビッグデータ」としてとらえることの重要性が理解できます。

実際に、データセンターをいくつも増設しなければならないレベルのデータ量を取り使う企業は、米国の先進的な巨大企業や有名な広告業、欧州の研究機関など、ごく一部に限定されます。欧米のビッグデータを取り扱う企業や組織体の多くは、建物内にあるマシンルームの一室に収まるデータを利活用していることがほとんどです。多くの企業は、自社が持つデータをできるだけ多角的に分析したいと考えています。データサイズがそれほど大きくなくても、様々なパラメータが絡み合うため、処理に膨大な時間がかかってしまうのです。

ビッグデータはどこにあるのか
一般的に、データは、すぐに利活用が行える状態にしておくことが重要ですが、個人情報や企業秘密に関わる情報が含まれることが多いため、物理的なセキュリティ対策がしっかりと施されているデータセンターに厳重に保管されることがほとんどです。

膨張するビッグデータをデータセンターに保管するというと、一見データセンターをどんどん増設するように思えますが、実際には、データセンター内のストレージシステムの標準化や高密度化、利用すべきソフトウェアのモジュール化などを行い、施設内で利用するハードウェアやソフトウェア資産の利用効率を高めることを合わせて考慮しなければなりません。

ちなみに、弊社がHP.incと分社する前、弊社は、過去にデータセンターの統合プロジェクトを進め、2005年に85か所あったデータセンターを2008年には6か所に統合し、機器の標準化と運用の自動化、電力と冷却の最適化を行い、3年で約10億ドルのコスト削減を実現しました。

その際は、データセンターの統合に加え、データの活用の仕方を徹底的に検討し、自社のビッグデータ処理基盤ソフトウェアのVertica(バーティカ)とHadoopを駆使し、購買行動分析を行いました。

膨張するビッグデータ
20220623_大容量のデータは一体どこに?.png総務省の「平成24年版 情報通信白書のポイント」の図表2-1-4-1をよく見ると、センサーデータや、ウェブサイトデータ、マルチメディアデータ、ソーシャルメディアデータ、ログデータなど、企業内で膨大に蓄積されている種類のデータが挙げられています。

これらの”膨大な量”と言われるデータは、私達の何気ない普段の生活にどのように結びついているのでしょうか?

ビッグデータというもの自体、どのように実生活に活用されているか、普段の生活からは、ほとんど見えないのではないかと思います。ビッグデータそのものは、人間の生活に分かりやすい形として見えるものというよりは、むしろ、そのほとんどは、携帯端末、自動車、産業用機械、購買システム、企業内のITシステムなどから日々生成されているデータであり、しかるべき場所に蓄積されたものといえます。

データの種類の例としては、品質検査データ、製造テスト時の計測データ、研究所の実験データ、コールセンターにおける通話記録、監視カメラの映像データなど様々です。これらのデータは、日々の生活において、その多くは、端末の機械やITシステムが自動的に生成し、データセンターに送信され、蓄積されます。Facebookでは、毎日膨大な新規データが生成されていますし、欧州原子核研究機構(CERN)の大型実験施設では、ペタバイド級の実験データが次々と生成されています。また、インターネット全体では、1日あたりエクサバイト級のデータが増加していると言われています。

このようなデータは、単にストレージシステムやデータセンターの増設といった話で片づけることはできず、データの圧縮方法や、データの重要度の定義、処理方法の効率化など、その企業や組織体にとって、膨大なデータからいかに価値のあるデータを見つけ出すのかが重要になります。データサイズが膨張すると、価値あるデータの発見がますます困難になるため、適切なビッグデータ分析処理基盤と妥当な探索手法の確立、分析ノウハウが必要になります。

しかし、実際には、生のデータそのものではなく、結果のサマリだけを保存している場合や、大量のデータをすぐに取り出すことができないテープ装置などに退避している場合も多くみられ、ビッグデータの利活用がすぐに行える環境になっていないのが実情です。あるいは、大量のデータを生成・保有しているにも関わらず、分析を行う人員の育成コストや分析用アプリケーションの開発に係る投資の費用対効果が不透明であるという理由から、分析自体を行っていないことがほとんどです。

従来の数ギガバイト~数十ギガバイト程度のデータであれば、従来型のデータベースシステムを使って、ある程度許容できる時間内に収まる処理が可能かもしれませんが、データサイズがテラバイトやペタバイト級になると、スケールアウトメリットが得られるビッグデータ処理基盤を導入せざるを得なくなります。そうなれば、従来のデータベースシステム以外に、新たにビッグデータ処理基盤の導入を検討しなくてはなりません。さらにビッグデータ処理基盤のソフトウェア選定や、利活用を容易に行えるようにするための可視化ツールなどの整備も必要になります。ビッグデータは、その量や処理の仕方だけでなく、周辺のエコシステムの整備も頭に入れておく必要があります。

20220623_EDF_GUI.png特に最近は、HPE Ezmeral Data Fabric(旧称、MapR)に代表されるような、膨大なデータの増加に対応できるようなソフトウェア定義型の分析基盤向けのストレージソフトウェアが、企業においても、数台規模のスモールスタートで部門単位レベルで迅速に導入される傾向にあります。「今はビッグデータでないけれども、今後、ビッグデータになり、複雑化してくであろう分析や活用の仕方に対応しておく」といったような「ビッグデータ化への備え」を検討する企業が増えているのです。

以上のように、ビッグデータといっても、単にデータの保存容量だけに注目するのではなく、その活用の仕方、使い勝手、データ容量の増加に対応できるITインフラの整備が重要であることがお分かりいただけるかと思います。

次回からは、もう少し踏み込んで、「ビッグデータ」そのものの特徴について、ご紹介します。

Masazumi Koga (Twitter: @masazumi_koga)

0 感謝
作者について

Masazumi_Koga

Hewlett Packard Enterprise認定のオープンソース・Linuxテクノロジーエバンジェリストの古賀政純が技術情報や最新トピックなどをお届けします。保有認定資格:CCAH(Hadoop)/RHCE/RHCVA/Novell CLP/Red Hat OpenStack/EXIN Cloud/HP ASE DataCenter and Cloud等