ブロックチェーンを活用したセキュアな分散型機械学習～スウォームラーニング

Kohei_Kubo · ‎05-31-2021

今日の機械学習と課題

IoTやモバイル化の流れの中で多くのデバイスや機器がネットワークにつながり、そこから膨大なデータが生み出され、5Gがこの流れをさらに加速します。　

このような状況の中で、『広がるエッジコンピューテングの可能性』というブログにも書かせて頂いたように、中央のデータセンターやクラウドの外、すなわちエッジ環境で大量に生み出されるデータをいかに有効活用して価値を引き出すかが求められています。

今日の一般的な機械学習では、データを中央のデータセンターやクラウドに送信集約してトレーニングを行いモデルが作成されます。

その後、中央で作成されたモデルは、エッジ環境に展開され、データの生み出されるエッジ環境で推論を行い、リアルタイムな予測により意思決定を行い、自律的なアクションがとられます。

しかし、エッジで収集されたすべてのデータをトレーニングのために中央のサーバーなどに送信することがセキュリティやプライバシーの問題、データ遅延や、ネットワークの転送コストなどの要因で困難な場合があります。

セキュリティやプライバシーの課題

たとえば、各病院の医療データをもとに病気かどうかを判定する推論モデルを作成して、そのモデルにもとづいて各病院で判定を行うというケースを考えてみます。一般的には、各病院の個人の診療データは秘匿性が高く外部に共有、転送することが困難です。

データを集約するにはデータを移動する必要がありますが、転送中のデータはさまざまな攻撃を受ける危険にさらされています。

データ遅延やネットワークの転送コストの課題

自動運転車には、1日に数ペタバイトのデータを生成する数多くのセンサーが搭載されている可能性があります。データが大量の、分散した拠点で生成される場合、それを集中型機械学習のためにクラウドなどの中央拠点に集約するのは非常に困難です。

サイロ化されたデータ、コラボレーションが困難なデータ

組織の境界を越えたデータコラボレーションが困難な場合があります。情報を集約すれば有益な情報を発見できる場合でも、組織や地域の壁を超えて協調することが難しいことがあるからです。たとえば、金融機関での不正検知やリスクを検出するための機械学習モデルは、各金融機関で独自のデータを使用して開発されていますが、それでもなお誤検出の可能性があります。不正検出モデルのトレーニングでは、一般に不正取引の数が制限され、それが原因でモデルの精度が低下する可能性があるからです。　もし、金融機関同士でデータを共有できれば不正検出の精度を向上させる大きな可能性があります。

スウォームラーニングとそのメリット

こうした課題に対応するため、HPEの研究所ではスウォームラーニングという新しいテクノロジーを開発しました。

スウォームラーニングは、分散したエッジ環境にあるデータに対してブロックチェーンを活用したセキュアな分散型機械学習ソリューションです。

スウォームラーニングでは、エッジ環境でモデルのトレーニングとトレーニング済みのモデルによる推論の両方が行われます。また、連携する機械学習のノード間で実データの代わりに、取得したモデルのパラメータなどの情報のみが共有されるため、データセキュリティとプライバシーが大幅に強化されます。

何万匹というムクドリの大群が空をうごめくように飛び回ったり、魚が水中で同様の動きをしているのを見たことがあるかもしません。　スウォームとは、『群れ』という意味ですが、さまざまな動物が、通常は身を守るために、群れの「リーダー」の動きとは関係のないある種の分散型の行動を取ることにヒントを得て名付けられました。

生物学からインスピレーションを受けたスウォームラーニングは、ブロックチェーンをベースとしており、正当な参加者だけが分散型学習ネットワークに参加し、企業がデータプライバシーとセキュリティを保護しながら分散データを活用できるようにすることを目的に設計されています。

スウォームラーニングの概要について、下記ビデオを日本語字幕でご覧ください。

スウォームラーニングの仕組みとワークフロー

仕組み

前述したようにスウォームラーニングは、各ノードがトレーニングデータをローカルで処理しますが、ノード間でデータ自体を共有することなく、共通の機械学習モデルを協調的にトレーニングできるよう設計されています。ローカルデータでモデルをトレーニングすることで得られるパラメーター (重み) はすべてのノードで共有され、グローバルなモデルを構築するためにマージされます。マージ処理は決まった中央のコーディネーターが実行するのではなく、ノード間で動的に選択された一時的なリーダーで行われるため、スウォームネットワークは分散されることになります。　そのため、従来の集中型のフレームワークよりもフォールトトレランスも向上します。

ワークフロー

登録

スウォームラーニングのプロセスは、各ノードによるスウォームスマートコントラクトへの登録から始まります。

ローカルモデルトレーニング

各ノードは、定められた反復回数に達するまで、エッジにあるローカルモデルをトレーニングします。そしてその回数に達すると、ファイルのパラメーター値をエクスポートして別のノードがアクセスできるように共有ファイルシステムにアップロードします。その後、パラメーターの共有ステップの準備が整ったことを別のノードに知らせます。

パラメーター共有

ここでは、すべてのノードのローカルトレーニング後に得られたパラメーターをマージする役割を担う、リーダーを選択するプロセスから始まります。

事前に決められたリーダー選択のアルゴリズムにより、いずれかのノードがリーダーとしてマージを行った後、各参加者からパラメーターファイルをダウンロードし、パラメーターのマージステップを実行できるようにします。

パラメーターマージ

リーダーは、ダウンロードしたパラメーターファイルをマージします。ここでは、平均、加重平均、中央値など複数のマージの方法がサポートされています。リーダーは、選択したマージアルゴリズムを使用してすべてのノードのパラメーター値を組み合わせ、マージしたパラメーターを他のノードに知らせます。　その後、各ノードはリーダーからファイルをダウンロードし、一連の新しいパラメーター値でローカルモデルをアップデートします。

停止基準のチェック

最後に、ノードはローカルデータを使用してアップデートしたパラメーター値でモデルを評価し、評価基準を作成します。すべてのマージ参加者が完了すると、リーダーはローカルの評価基準の数値をマージしてグローバルな評価時基準の数を計算します。これで、同期ステップが完了としてマークされます。

その後、システムの現状と停止基準が比較され、基準が満たされていることが判明すれば、スウォームラーニングのプロセスが停止されます。しかしそうでなければ、基準が満たされるまで、ローカルモデルトレーニング、パラメーター共有、パラメーターマージ、および停止基準チェックのステップが繰り返されます。　

スウォームラーニングの仕組みについて語る、HPE研究所の研究者の下記ビデオを日本語字幕でご覧ください。

ユースケース - 医療への適用

スウォームラーニング:　分散データから高い競争力を獲得というホワイトペーパーの中で下記のユースケースの例が紹介されています。

『例えば、米国、ヨーロッパ、およびアジアに乳がんの研究機関が3つあり、それぞれの機関が乳がんに関する限定された独自のデータセットを有している、というケースについて考えてみましょう。これらの研究機関は、機械学習モデルの開発とトレーニングによる乳がんの診断精度の向上という共通した目標を掲げています。各機関のデータはサイズが限られており、特定の年齢層に偏っている可能性があるため、管理可能な方法で (理想的には乳がんに関連する有益な情報だけに限定して) データを共有したいと考えています。

ただし、このように善意で協力し合い、人類全体の健康の向上を目指そうとした場合、集中型機械学習のアプローチでは規制遵守の面で大きなリスクに直面することになります。それぞれの機関が存在する国での、医療記録に関わる既存の規制によっては、実データを共有して (場合によっては国外の) 中央拠点への転送の承認を得るが障害になる可能性があります。

スウォームラーニングでは、実データの転送を不要にすることで規制遵守のリスクを最小限に抑え、データの近くでトレーニングを行うことで上記の課題を解決することが可能です。』

DZNE (German Center for Neurodegenerative Diseases - ドイツ神経変性疾患センター)　での例

医療研究データを異なる場所や国の間で交換するには、データ保護やデータ主権に関する規制があります。加えて、技術的な障壁もあります。例えば、膨大な量のデータをデジタルで転送する場合、データ回線の性能がすぐに限界に達してしまいます。このような状況から、多くの医療研究は地域に限定され、他の地域で利用可能なデータを利用することができません。　HPEとDZNE（ドイツ神経変性疾患センター）が共同で開発したスウォームラーニングが、まったく新しい連携の可能性を切り開き、医療研究を大幅に加速させています。下記ビデオをご覧ください。

DZNEのプレスリリース - AI with Swarm Intelligence (英語)

Nature に掲載されている学術記事 - Swarm Learning for decentralized and confidential clinical machine learning

あわせて下記のビデオもご覧ください。

ビッグシフト：医療研究の再定義

関連情報

enterprise.nxt 記事

スウォームラーニングと人工知能エッジ

テクニカルホワイトペーパー (by Hewlett Packard Labs)

スウォームラーニング:　分散データから高い競争力を獲得

スウォームラーニングの詳細

寄稿者

久保耕平

Hewlett Packard Enterprise において、ヨーロッパ、アジア・太平洋地域のインダストリ・ワークロードマーケティングチームに所属し、HPEのエッジからクラウドまでのソリューションを推進

EMEA & APJ Industry and Workload Marketing Manager at Hewlett Packard Enterprise

カテゴリ

Company

Local Language

フォーラム

ディスカッションボード

フォーラム

ディスカッションボード

フォーラム

ディスカッションボード

フォーラム

ディスカッションボード

フォーラム

ディスカッションボード

ディスカッションボード

フォーラム

フォーラム

ディスカッションボード

フォーラム

ディスカッションボード

フォーラム

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

Discussion Boards

コミュニティ

お問い合わせ

その他のHPEウェブサイト

ディスカッションボード

フォーラム

ブログ

ブロックチェーンを活用したセキュアな分散型機械学習 ～ スウォームラーニング

Kohei_Kubo

ブロックチェーンを活用したセキュアな分散型機械学習～スウォームラーニング