Build Foundation の創設メンバーの登録が開始されました。メーリングリストに参加し、参加契約を読み、登録してください。

ビルドのパフォーマンスの内訳

Nightly · 9.0 · 8.6 · 8.5 · 8.4 · 8.3 · 8.2 · 7.7

Bazel は複雑で、ビルドの過程でさまざまな処理を行います。その一部はビルドのパフォーマンスに影響する可能性があります。このページでは、Bazel のコンセプトとビルドのパフォーマンスへの影響をマッピングします。網羅的ではありませんが、指標を抽出してビルドのパフォーマンスの問題を検出する方法と、問題を解決する方法の例をいくつか紹介します。ビルドのパフォーマンスの低下を調査する際に、これらのコンセプトを適用していただければ幸いです。

クリーンビルドと増分ビルド

クリーンビルドはすべてをゼロからビルドするビルドで、増分ビルドはすでに完了している作業の一部を再利用します。

クリーンビルドと増分ビルドは別々に確認することをおすすめします。特に、 Bazel のキャッシュの状態に依存する指標（たとえばビルドリクエストサイズの指標など）を収集または集計する場合は、別々に確認してください。また、これらは 2 つの異なるユーザーエクスペリエンスを表します。クリーンビルドをゼロから開始する場合（コールドキャッシュのため時間がかかる）と比較して、増分ビルドは、デベロッパーがコードを反復処理する際に頻繁に発生します（通常、キャッシュはすでにウォームであるため高速です）。

BEP の CumulativeMetrics.num_analyses フィールドを使用して、ビルドを分類できます。num_analyses <= 1 の場合はクリーンビルドです。それ以外の場合は、増分ビルドである可能性が高いと大まかに分類できます。ユーザーが別のフラグまたは別のターゲットに切り替えたため、事実上クリーンビルドになる可能性があります。増分性のより厳密な定義は、ヒューリスティックの形式で提供される可能性があります。たとえば、読み込まれたパッケージの数（PackageMetrics.packages_loaded）を確認します。

ビルドのパフォーマンスのプロキシとしての決定論的ビルド指標

特定の指標（Bazel の CPU 時間やリモートクラスタのキュー時間など）の非決定論的な性質により、ビルドのパフォーマンスの測定は困難になる可能性があります。そのため、決定論的な指標を Bazel が行った作業量のプロキシとして使用すると便利です。これは、パフォーマンスに影響します。

ビルドリクエストのサイズは、ビルドのパフォーマンスに大きな影響を与える可能性があります。ビルドが大きいほど、ビルドグラフの分析と構築に多くの作業が必要になる可能性があります。ビルドの自然な増加は、依存関係の追加や作成に伴って発生します。そのため、複雑さが増し、ビルドのコストが高くなります。

この問題をさまざまなビルドフェーズに分割し、次の指標を各フェーズで行われた作業のプロキシ指標として使用できます。

PackageMetrics.packages_loaded: 正常に読み込まれたパッケージの数。ここで回帰が発生すると、読み込みフェーズで追加の BUILD ファイルを読み取って解析するために必要な作業が増えます。
- 多くの場合、これは依存関係の追加と、その推移的閉包を読み込む必要があることが原因です。
- query / cquery を使用して、新しい依存関係が追加された場所を確認します。
TargetMetrics.targets_configured: ビルドで構成されたターゲットとアスペクトの数を表します。回帰は、構成されたターゲットグラフの構築とトラバースに必要な作業が増えることを表します。
- 多くの場合、これは依存関係の追加と、その推移的閉包のグラフを構築する必要があることが原因です。
- cquery を使用して、新しい依存関係が追加された場所を確認します。
ActionSummary.actions_created: ビルドで作成されたアクションを表します。回帰は、アクショングラフの構築に必要な作業が増えることを表します。これには、実行されていない可能性のある未使用のアクションも含まれます。
- 回帰のデバッグにはaqueryを使用します。 --skyframe_stateでさらにドリルダウンする前に、 --output=summaryから始めることをおすすめします。
ActionSummary.actions_executed: 実行されたアクションの数。回帰は、これらのアクションの実行に必要な作業が増えることを直接表します。
- BEP は、最も実行されたアクションタイプを示すアクション統計 ActionData を書き出します。デフォルトでは、上位 20 個のアクションタイプが収集されますが、 --experimental_record_metrics_for_all_mnemonics を渡して、実行されたすべてのアクションタイプについてこのデータを収集できます。
- これにより、実行されたアクションの種類を把握できます。
BuildGraphSummary.outputArtifactCount: 実行されたアクションによって作成されたアーティファクトの数。
- 実行されたアクションの数が増加していない場合は、ルール実装が変更された可能性があります。

これらの指標はすべてローカルキャッシュの状態の影響を受けるため、これらの指標を抽出するビルドが クリーンビルドであることを確認する必要があります。

これらの指標のいずれかで回帰が発生すると、実時間、CPU 時間、メモリ使用量で回帰が発生する可能性があります。

ローカルリソースの使用量

Bazel は、ローカルマシンでさまざまなリソースを消費します（ビルドグラフの分析と実行の推進、ローカルアクションの実行の両方）。これにより、ビルドの実行時や他のタスクの実行時に、マシンのパフォーマンスや可用性に影響する可能性があります。

かかった時間

ノイズの影響を受けやすく、ビルドごとに大きく異なる可能性のある指標は、時間です。特に、実時間、CPU 時間、システム時間です。bazel-bench を使用してこれらの指標のベンチマークを取得できます。--runs の数を十分に増やすと、測定の統計的有意性を高めることができます。

実時間 は、経過した実際の時間です。
- 実時間のみが回帰する場合は、 JSON トレースプロファイルを収集して違いを確認することをおすすめします。それ以外の場合は、他の回帰した指標を調査する方が効率的です。実時間に影響している可能性があります。
CPU 時間 は、CPU がユーザーコードの実行に費やした時間です。
- 2 つのプロジェクトコミット間で CPU 時間が回帰する場合は、Starlark CPU プロファイルを収集することをおすすめします。また、--nobuild を使用して、ビルドを分析フェーズに制限することをおすすめします。CPU を集中的に使用する作業のほとんどがこのフェーズで行われるためです。
システム時間は、CPU がカーネルで費やした時間です。
- システム時間が回帰する場合、Bazel がファイルシステムからファイルを読み取るときに I/O と相関することがほとんどです。

システム全体の負荷プロファイリング

Bazel 6.0 で導入された --experimental_collect_load_average_in_profiler フラグを使用すると、 JSON トレースプロファイラは呼び出し中にシステム負荷の平均を収集します。

図 1.システム負荷の平均を含むプロファイル。

Bazel の呼び出し中に負荷が高い場合は、Bazel がマシンに対してローカルアクションを並行してスケジュールしすぎている可能性があります。特にコンテナ環境では、 --local_cpu_resources と --local_ram_resources の調整を検討してください（少なくとも #16512がマージされるまでは）。

Bazel のメモリ使用量のモニタリング

Bazel のメモリ使用量を取得するには、Bazel info と BEP の 2 つの主なソースがあります。

bazel info used-heap-size-after-gc: の呼び出し後の使用済みメモリ量（バイト単位）。System.gc()
- Bazel ベンチマークでは、この指標のベンチマークも提供されます。
- また、peak-heap-size、max-heap-size、used-heap-size 、committed-heap-size（ドキュメントを参照）もありますが、関連性は低くなります。
BEP の MemoryMetrics.peak_post_gc_heap_size：GC 後の JVM ヒープサイズのピークサイズ（バイト単位）（完全な GC を強制しようとする --memory_profile の設定が必要）。

メモリ使用量の回帰は通常、ビルドリクエストサイズの指標の回帰の結果です。これは多くの場合、依存関係の追加またはルール実装の変更が原因です。

Bazel のメモリ使用量をより詳細に分析するには、ルール用の組み込みメモリプロファイラを使用することをおすすめします。

永続ワーカーのメモリプロファイリング

永続ワーカーはビルドを大幅に高速化できますが（特にインタープリタ言語の場合）、メモリ使用量が問題になる可能性があります。Bazel collects metrics on its workers, in particular, the WorkerMetrics.WorkerStats.worker_memory_in_kb field tells how much memory workers use (by mnemonic).

JSON トレースプロファイラは、フラグ（Bazel 6.0 で新しく追加）を渡すことで、呼び出し中に永続ワーカーのメモリ使用量も収集します。--experimental_collect_system_network_usage

図 2.ワーカーのメモリ使用量を含むプロファイル。

--worker_max_instances の値（デフォルトは 4）を小さくすると、永続ワーカーが使用するメモリ量を減らすことができます。Bazel のリソースマネージャーとスケジューラをよりスマートにするために積極的に取り組んでいます。これにより、今後このような微調整が必要になる頻度が減ります。

リモートビルドのネットワークトラフィックのモニタリング

リモート実行では、Bazel はアクションの実行結果としてビルドされたアーティファクトをダウンロードします。そのため、ネットワーク帯域幅がビルドのパフォーマンスに影響する可能性があります。

ビルドにリモート実行を使用している場合は、 BEP の NetworkMetrics.SystemNetworkStats proto（--experimental_collect_system_network_usage を渡す必要があります）を使用して、呼び出し中のネットワークトラフィックをモニタリングすることを検討してください。

さらに、JSON トレースプロファイルを使用すると、ビルド全体でシステム全体のネットワーク使用量を確認できます。--experimental_collect_system_network_usage フラグ（Bazel 6.0 で新しく追加）を渡します。

図 3.システム全体のネットワーク使用量を含むプロファイル。

リモート実行を使用しているときにネットワーク使用量が高く、フラットな場合は、ネットワークがビルドのボトルネックになっている可能性があります。まだ使用していない場合は、を渡して、バイトなしでビルドを有効にすることを検討してください。--remote_download_minimalこれにより、不要な中間アーティファクトのダウンロードを回避することで、ビルドを高速化できます。

別の方法として、ローカルディスクキャッシュを構成してダウンロード帯域幅を節約することもできます。

ビルドのパフォーマンスの内訳 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。