Build Foundation の創設メンバーの登録が開始されました。メーリングリストに参加し、参加契約を読み、登録してください。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

分散ビルド

Nightly · 9.2 · 9.1 · 9.0 · 8.7 · 8.6

コードベースが大きい場合、依存関係のチェーンが非常に深くなることがあります。単純なバイナリでも、数万のビルドターゲットに依存することがよくあります。この規模では、単一のマシンで妥当な時間内にビルドを完了することは不可能です。ビルドシステムは、マシンのハードウェアに課せられた物理法則の基本を回避できません。これを実現する唯一の方法は、システムが行う作業単位が任意の数のスケーラブルなマシンに分散される分散ビルドをサポートするビルドシステムを使用することです。システムの作業を十分に小さな単位に分割したとすると（詳細については後述）、必要なだけ費用を支払うことで、あらゆるサイズのビルドを迅速に完了できます。このスケーラビリティは、アーティファクトベースのビルドシステムを定義することで実現してきた目標です。

リモートキャッシング

最も単純なタイプの分散ビルドは、図 1 に示すように、リモートキャッシングのみを活用するビルドです。

図 1 。リモートキャッシングを示す分散ビルド

デベロッパーワークステーションと継続的インテグレーションシステムの両方を含む、ビルドを実行するすべてのシステムは、共通のリモートキャッシュサービスへの参照を共有します。このサービスは、Redis などの高速でローカルな短期ストレージシステムや、Google Cloud Storage などのクラウドサービスです。ユーザーがアーティファクトを直接ビルドする場合でも、依存関係としてビルドする場合でも、システムはまずリモートキャッシュでそのアーティファクトがすでに存在するかどうかを確認します。存在する場合は、ビルドする代わりにアーティファクトをダウンロードできます。存在しない場合、システムはアーティファクト自体をビルドし、結果をキャッシュにアップロードします。つまり、頻繁に変更されない低レベルの依存関係は、各ユーザーが再ビルドするのではなく、一度ビルドしてユーザー間で共有できます。Google では、多くのアーティファクトがゼロからビルドされるのではなく、キャッシュから提供されるため、ビルドシステムの実行コストが大幅に削減されます。

リモートキャッシングシステムが機能するには、ビルドシステムでビルドが完全に再現可能であることを保証する必要があります。つまり、任意のビルドターゲットについて、同じ入力セットでどのマシンでもまったく同じ出力が生成されるように、そのターゲットへの入力セットを決定できる必要があります。アーティファクトをダウンロードした結果が、自分でビルドした結果と同じであることを保証する唯一の方法です。これには、キャッシュ内の各アーティファクトが、ターゲットと入力のハッシュの両方でキー設定されている必要があります。これにより、異なるエンジニアが同じターゲットに同時に異なる変更を加えることができ、リモートキャッシュは結果のアーティファクトをすべて保存し、競合することなく適切に提供できます。

もちろん、リモートキャッシュのメリットを得るには、アーティファクトのダウンロードがビルドよりも高速である必要があります。特に、キャッシュサーバーがビルドを行うマシンから遠く離れている場合は、そうでないことがあります。Google のネットワークとビルドシステムは、ビルド結果を迅速に共有できるように慎重に調整されています。

リモート実行

リモートキャッシングは真の分散ビルドではありません。キャッシュが失われた場合や、すべてを再ビルドする必要がある低レベルの変更を行った場合は、マシンでビルド全体をローカルで実行する必要があります。真の目標は、リモート実行をサポートすることです。これにより、ビルドの実際の作業を任意の数のワーカーに分散できます。図 2 に、リモート実行システムを示します。

図 2 。リモート実行システム

各ユーザーのマシンで実行されているビルドツール（ユーザーは人間のエンジニアまたは自動ビルドシステム）は、中央のビルドマスターにリクエストを送信します。ビルドマスターは、リクエストをコンポーネントアクションに分割し、スケーラブルなワーカープールでこれらのアクションの実行をスケジュールします。各ワーカーは、ユーザーが指定した入力を使用して、要求されたアクションを実行し、結果のアーティファクトを書き出します。これらのアーティファクトは、最終的な出力が生成されてユーザーに送信されるまで、それらを必要とするアクションを実行する他のマシン間で共有されます。

このようなシステムを実装するうえで最も難しいのは、ワーカー、マスター、ユーザーのローカルマシン間の通信を管理することです。ワーカーは他のワーカーが生成した中間アーティファクトに依存する可能性があり、最終的な出力はユーザーのローカルマシンに返送する必要があります。これを行うには、各ワーカーが結果をキャッシュに書き込み、依存関係をキャッシュから読み取ることで、前述の分散キャッシュを基盤として構築できます。マスターは、依存するすべてのものが完了するまでワーカーの処理をブロックします。その場合、ワーカーはキャッシュから入力を読み取ることができます。最終的なプロダクトもキャッシュに保存されるため、ローカルマシンでダウンロードできます。また、ワーカーがビルド前に変更を適用できるように、ユーザーのソースツリー内のローカル変更をエクスポートする別の手段も必要です。

これを行うには、前述のアーティファクトベースのビルドシステムのすべての部分をまとめる必要があります。ビルド環境は完全に自己記述型である必要があります。これにより、人間の介入なしでワーカーを起動できます。ビルドプロセス自体は完全に自己完結型である必要があります。各ステップは異なるマシンで実行される可能性があるためです。出力は完全に決定論的である必要があります。これにより、各ワーカーは他のワーカーから受け取った結果を信頼できます。このような保証は、タスクベースのシステムでは非常に難しいため、その上に信頼性の高いリモート実行システムを構築することはほぼ不可能です。

Google の分散ビルド

2008 年以降、Google はリモートキャッシングとリモート実行の両方を使用する分散ビルドシステムを使用しています。図 3 に示します。

図 3 。Google の分散ビルドシステム

Google のリモートキャッシュは ObjFS と呼ばれます。これは、Google の本番環境マシンのフリート全体に分散された Bigtable にビルド出力を保存するバックエンドと、各デベロッパーのマシンで実行される objfsd という名前のフロントエンド FUSE デーモンで構成されています。FUSE デーモンを使用すると、エンジニアはワークステーションに保存されている通常のファイルのようにビルド出力を参照できますが、ファイルコンテンツはユーザーが直接リクエストした少数のファイルに対してのみオンデマンドでダウンロードされます。ファイルコンテンツをオンデマンドで提供することで、ネットワークとディスクの使用量が大幅に削減され、デベロッパーのローカルディスクにすべてのビルド出力を保存した場合と比較して、システムのビルド速度が 2 倍になります。

Google のリモート実行システムは Forge と呼ばれます。Blaze（Bazel の内部相当）の Forge クライアントである Distributor は、各アクションのリクエストを、Scheduler というデータセンターで実行されているジョブに送信します。Scheduler はアクション結果のキャッシュを保持しているため、システム内の他のユーザーがすでにアクションを作成している場合は、すぐにレスポンスを返すことができます。そうでない場合は、アクションをキューに入れます。Executor ジョブの大規模なプールは、このキューからアクションを継続的に読み取り、実行し、結果を ObjFS Bigtable に直接保存します。これらの結果は、今後のアクションで実行されるか、objfsd を介してエンドユーザーがダウンロードできます。

最終的に、Google で実行されるすべてのビルドを効率的にサポートするシステムが実現します。Google のビルドの規模は非常に大きく、毎日数百万件のビルドを実行し、数百万件のテストケースを実行し、数十億行のソースコードからペタバイトのビルド出力を生成しています。このようなシステムにより、エンジニアは複雑なコードベースを迅速に構築できるだけでなく、ビルドに依存する多数の自動化ツールとシステムを実装することもできます。

分散ビルド コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

リモート キャッシング

リモート実行

Google の分散ビルド

分散ビルド

リモートキャッシング