Forum feedback
1753469 メンバー
5147 オンライン
108794 解決策
新規ポスト

ビッグデータをどう扱うべきかなのか

 
TasukuYoshioka
時折のコントリビューター

ビッグデータをどう扱うべきかなのか

データの保管・アーカイブ

大量のビッグデータを分析する前に、まずはデータを横串で確認する方法は無いものかと言う相談を良く受けます。この場合、技術的な問題の前に各部署や各関連会社間での情報の入手が可能かというよりガバナンスの問題に直面する事も多いのですが、基本的には集めたうえでセキュリティ設定によって閲覧・加工など権限を設定する事が可能なので、とりあえずまずは集める事をお勧めしています。出来ればトップダウンの強い方向性と意思表示を執行役員レベルから頂くのが最適かなと思いますが、徐々に集められるところからだけでも始めて大丈夫でしょう。

 

どんなデータなの?

さて、データが既に構造化されている、言い換えるならばSQL構文で検索可能な情報である場合は、データベースが様々存在していますので、例えばVerticaですとかそのような製品ソフトウェアにデータを収集すれば問題はありません。
しかし、実際には昨今のIoTに代表されるようなデータはデータそれ自体は構造化されていませんので、まずは分析可能なデータへの変換を行う必要があります。ですが、まずは集めてしまうのが最適であり、其の為のツールとしてはやはりHadoopを用いるべきでしょう。最初はオープンソースのHadoopで構わないと思いますが、商用版でればMapR等サポート体制の整ったHadoopを用いる事をお勧めしています。データが既にセンサーデータやWebデータ等のセミ構造化であるならば、Hadoop関連のHiveを用いてSQLっぽく扱う事も可能ですし、MapReduceを用いて加工分析を一気に行う方法など、ここからは様々な方法が考えられます。
データをここで出来るだけSQLライクに扱える形に保存しておくことが今後のデータ分析に大いに役立つことになります。勿論、非構造の文章データをそのまま分析するようなIDOLなどのソフトウェア製品もあります。

分析官がITとは別の人?

さて、ここから問題になってくるのは、実際にデータ分析を行う人がITの専門家ではない事が多い事です。データはHadoopに保存されていてるが、そのデータを扱うにはLinuxなどの操作に慣れた人である必要があります。そこでHadoopの大量データを高速に扱うにはHadoopのデータをそのままメモリに吸い上げて分析可能にするソフトウェアを活用します。具体的な言及はさけますが、もしご興味がありましたらお問合せ頂けますと幸いです。

まずどうすれば良いのか?

データの将来的な拡大は不明です。ただし、捨てないでアーカイブしておこうとするとディスクサイズはどんどん増えてしまいます。その場合はスケールアウト型のサーバのディスクをストレージにみたてるソフトウェアデファインドストレージを用いる事をお勧めします。この方法ですと、将来的にデータが増えても、パフォーマンスが悪くなっても、サーバを追加する事でパフォーマンスもデータ保存領域も同時に増加しますので、少ない予算で小さく始める事ができます。そしてのその各サーバノードにHadoop等のソフトウェアをインストールしていけば問題ありません。

人を育てるには?

どのようなエンジニア像が最適なのかという質問も良く受けますのでここに記載しておきます。まずは、Linuxの知識とJavaが出来る事が望ましいです。次にSQLと統計の知識、この4つがあれば技術的には解決します。ただし、一番重要なのがコミュニケーションです。統計が得意な方もそのデータを他部署、他の関連会社から入手しなければなりませんし、複雑な統計の結果を分かりやすく、全く知識のないマネジメント経営層に説明できなければなりません。分析の結果は「投資」を行う上で本当に貴重で大切な結果を算出してくれることが多いのですが、これを大規模に社運を賭けた投資を実行するまで昇華させるのは本当に大変なことだと思います。