機械学習のハードウェアインフラってどうしてる?Facebookの成長を支えたパイプライン

Front

Facebookのサービスは、機械学習により大きく進歩しました。自動翻訳システム、画像分類システム、音声認識、物体認識、顔認識システムなどの新しいサービスが次々にリリースされています。

これらの開発には機械学習を用いますが、複雑な計算を行うには膨大なマシンパワーが必要になります。膨大な仕事量をこなすために、Facebookは2013年から、データセンターの機械学習ハードウェアを大幅にアップグレードしてきました。

まず、『HP SL270s G8システム』をAIリサーチ用に導入しました。そして研究を行う過程で、GPUのパワーが重要であると気づきます。GPUに加え、熱効率、パフォーマンス、信頼性、クラスター管理にも焦点を置いて、次世代のシステム開発に取り組みました。

『Big Sur』と『Big Basin』という2つのサーバーがデザインされ、OCP(オープンコンピュートプロジェクト)のデータセンターに追加されました。ここから、AIリサーチと機械学習はさらに進歩することになります。

Servers
出典 : code.facebook.com

Big Basin v2の導入

組み立て方式で作られた『Big Basinシステム』は、それを基盤にして、OCPから様々な要素を取り込むことができました。そして完成したのが『Big Basin v2システム』です。

最新世代の『NVIDIA Tesla V100 GPU』アクセラレータの採用により、CPUパフォーマンスの向上、PCle帯域幅も倍になりました。さらにネットワークカードのアップグレードも行い、前回のシステムと比べてシングルGPUコアのパフォーマスが66%も向上しました。

システム全体でも大幅な改善となり、研究者とエンジニアが、より複雑で大きな機械学習モデルを設計できるようになりました。

Front
出典 : code.facebook.com

Front2
出典 : code.facebook.com

Inside01
出典 : code.facebook.com

Inside2
出典 : code.facebook.com

Backside Server
出典 : code.facebook.com

Facebookの機械学習パイプライン

『Big Basin v2』は、Facebookの機械学習を支える最先端のマシンです。

そして大部分の機械学習は、『FBLearner』というパイプラインを通されます。『Feature Store』『Flow』『Predictor』という三段階のAIプラットフォームを用いて機械学習を行います。

まず、『Feature Store』でフィーチャーを抽出し『Flow』に受け渡します。そこで渡されたデータを元に学習モデルを作り出します。最終段階までテストされたモデルは、『Predictor』に渡され、インターフェイスが実装されたり、実際のトラフィック上で稼働を始めます。

たとえば、実際のトラフィックを観察することで、ストーリーや投稿の中から最も人気のあるものを見つけ出すことができます。

データと『Feature Store』は『Bryce Canyon』によって、『Flow』は『Tioga Pass CPU』もしくは『Big Basin v2 GPU』によって、そして『Predictor』は『Tioga Pass』もしくは『Twin Lakes』によって処理されています。

Servers and work flows
出典 : code.facebook.com

将来のハードウェアデザイン

めざましく発展する機械学習をサポートしようと、Facebookは最先端の人工知能インフラストラクチャーを目指しています。

より良いエネルギー効率、高いパフォーマンス性、ノード間通信、ストレージ効率やデータローカリティの改良を重ね、より大きく複雑なデータを扱えるように取り組んでいます。

また、ソースを一般にも公開して、さらに共同作業をすることで、プロセスを加速できると言われています。より多くのデータを処理、解析し、そしてさらに素晴らしいFacebookエクスペリエンスを届けるのが目標です。

『Big Basin v2』のデザインスペックは一般公開されているので、ぜひチェックしてみてください。

OCP Marketplace

(執筆:f code 翻訳:July Ando)

SHARE

  • 広告主募集
  • ライター・編集者募集
  • WorkshipSPACE
週1〜3 リモートワーク 土日のみでも案件が見つかる!
Workship