
Preferred Networksの機械学習クラスタを支える技術
大村 伸吾 Engineer, Preferred Networks, Inc.
Preferred Networksでは多くの機械学習の負荷を効率よく計算させるためにの機械学習向けのジョブクラスタを開発・運用を行っています。それらのジョブは多くのWebサービスとは異なる性質を持つものが多く、実行要件も多岐にわたります。さらに、そうしたジョブをGPUやInfinibandといった特殊な計算資源を持つクラスタの中で効率よく実行することが求められます。本講演では、私達が開発したジョブクラスタの概要、これまで開発運用してきた中で出会った課題、解決策について共有します。