このページは Cloud Translation API によって翻訳されました。

ビルドのパフォーマンスの内訳

Bazel は複雑で、ビルド中にさまざまな処理を行います。その中にはビルドのパフォーマンスに影響するものもあります。このページでは、これらの Bazel のコンセプトの一部をビルドパフォーマンスへの影響にマッピングする方法について説明します。ここでは、指標の抽出によってビルドパフォーマンスの問題を検出する方法と、その修正方法の例をいくつか紹介します。ビルドのパフォーマンスの低下を調査する際にこれらのコンセプトを応用してみてください

クリーンビルドと増分ビルド

クリーンビルドではすべてをゼロからビルドするのに対し、増分ビルドではすでに完了した作業の一部を再利用します。

特に Bazel のキャッシュの状態に依存する指標（ビルドリクエストサイズの指標など）を収集または集計する場合は、クリーンビルドと増分ビルドを別々に確認することをおすすめします。また、これらは 2 つの異なるユーザーエクスペリエンスを表します。クリーンビルドをゼロから開始する場合（コールドキャッシュが原因で時間がかかるため）に比べ、デベロッパーがコードを反復処理すると、増分ビルドははるかに頻繁に行われます（通常、キャッシュはすでにウォーム状態になっているため、通常より高速です）。

BEP の CumulativeMetrics.num_analyses フィールドを使用してビルドを分類できます。num_analyses <= 1 の場合、クリーンビルドです。それ以外の場合は、増分ビルドである可能性が高いと大まかに分類できます。ユーザーが別のフラグまたは別のターゲットに切り替えたことで、実質的にクリーンビルドが行われた可能性があります。インクリメンタリティのより厳密な定義は、たとえば読み込まれたパッケージの数（PackageMetrics.packages_loaded）を確認するなど、ヒューリスティックの形式で行う必要があります。

ビルドパフォーマンスの代用となる確定的なビルド指標

特定の指標（リモートクラスタでの Bazel の CPU 時間やキュー時間など）は非決定性であるため、ビルドパフォーマンスの測定は困難な場合があります。そのため、Bazel による処理量を表す決定論的な指標を使用すると、パフォーマンスに影響が及びます。

ビルドリクエストのサイズはビルドのパフォーマンスに大きく影響する可能性があります。ビルドが大きいほど、ビルドグラフの分析と構築に必要な作業が増える可能性があります。ビルドの有機的な成長は、開発に伴って自然に増加します。依存関係が追加または作成されるため、複雑さが増し、ビルドのコストが高くなります。

この問題をさまざまなビルドフェーズに細分化し、各フェーズでの作業のプロキシ指標として次の指標を使用できます。

PackageMetrics.packages_loaded: 正常に読み込まれたパッケージの数。ここで回帰とは、読み込みフェーズで追加の BUILD ファイルを読み取って解析するために必要となる作業が増えることを意味します。
- 多くの場合、依存関係の追加と、その推移的なクロージャを読み込む必要があることが原因です。
- query / cquery を使用して、新しい依存関係が追加された可能性のある場所を見つけます。
TargetMetrics.targets_configured: ビルドで構成されたターゲットとアスペクトの数を表します。回帰は、構成されたターゲットグラフの作成と走査での作業量が増えることになります。
- これは多くの場合、依存関係の追加と、その推移的クロージャのグラフの作成が必要になることが原因です。
- cquery を使用して、新しい依存関係が追加された可能性のある場所を確認します。
ActionSummary.actions_created: ビルドで作成されたアクションを表します。回帰は、アクショングラフを作成する際の作業が多いことを表します。これには、実行されていない可能性のある未使用のアクションも含まれます。
- 回帰のデバッグには aquery を使用します。--output=summary から始めて、--skyframe_state でさらにドリルダウンすることをおすすめします。
ActionSummary.actions_executed: 実行されたアクションの数。回帰は、これらのアクションを実行する際の作業量を直接表します。
- BEP は、最も多く実行されたアクションタイプを示すアクション統計情報 ActionData を書き出します。デフォルトでは上位 20 種類のアクションが収集されますが、--experimental_record_metrics_for_all_mnemonics を渡して、実行されたすべてのアクションタイプについてこのデータを収集することもできます。
- これは、どのようなアクションが（追加で）実行されたかを把握するのに役立ちます。
BuildGraphSummary.outputArtifactCount: 実行されたアクションによって作成されたアーティファクトの数。
- 実行されたアクションの数が増えていない場合は、ルールの実装が変更された可能性があります。

これらの指標はすべてローカルキャッシュの状態の影響を受けるため、これらの指標を抽出するビルドはクリーンなビルドにする必要があります。

これらの指標のいずれかで回帰が発生すると、経過時間、CPU 時間、メモリ使用量の回帰が生じることがあります。

ローカルリソースの使用

Bazel は、ローカルマシンでさまざまなリソースを（ビルドグラフの分析と実行の実行とローカルアクションの実行の両方のために）使用します。これは、ビルドを実行するマシンのパフォーマンスや可用性、その他のタスクに影響を与える可能性があります。

かかった時間

おそらく、最もノイズの影響を受けやすい指標は（ビルドによって大きく異なる）時間です。特に、経過時間、CPU 時間、システム時間です。bazel-bench を使用してこれらの指標のベンチマークを取得し、十分な数の --runs を使用することで、測定の統計的有意性を高めることができます。

経過時間は、実際の経過時間です。
- 経過時間の回帰のみの場合は、JSON トレースプロファイルを収集して差異を探すことをおすすめします。そうでない場合は、経過時間に影響を与えた可能性があるため、他の回帰指標を調査した方が効率的です。
CPU 時間: CPU がユーザーコードを実行に費やした時間です。
- 2 つのプロジェクトの commit で CPU 時間のリグレッションが発生する場合は、Starlark の CPU プロファイルを収集することをおすすめします。また、--nobuild を使用してビルドを分析フェーズに制限することをおすすめします。分析フェーズで CPU の負荷の大きい作業のほとんどが行われるためです。
システム時間とは、カーネル内で CPU が費やした時間です。
- システム時間のリグレッションは、Bazel がファイルシステムからファイルを読み取るときの I/O との関連がほとんどです。

システム全体の負荷プロファイリング

JSON トレースプロファイラは、Bazel 6.0 で導入された --experimental_collect_load_average_in_profiler フラグを使用して、呼び出し中のシステム負荷の平均を収集します。

図 1. システム負荷の平均を含むプロファイル。

Bazel の呼び出し中の負荷が高い場合は、Bazel がマシンに対して並列にスケジュール設定するローカルアクションの数が多すぎる可能性があります。特にコンテナ環境で、--local_cpu_resources と --local_ram_resources の調整を検討することをおすすめします（少なくとも #16512 がマージされるまで）。

Bazel のメモリ使用量のモニタリング

Bazel のメモリ使用量を取得するには、主に Bazel info と BEP の 2 つのソースがあります。

bazel info used-heap-size-after-gc: System.gc() 呼び出し後の使用メモリ量（バイト単位）。
- Bazel bench でも、この指標のベンチマークを確認できます。
- さらに、peak-heap-size、max-heap-size、used-heap-size、committed-heap-size（ドキュメントを参照）もありますが、あまり関連性がありません。
BEP の MemoryMetrics.peak_post_gc_heap_size: GC 後のピーク JVM ヒープサイズ（バイト単位）。完全な GC を強制実行するための --memory_profile の設定が必要です。

メモリ使用量の回帰は通常、ビルドリクエストサイズの指標の回帰が原因です。多くの場合、依存関係の追加やルール実装の変更が原因です。

Bazel のメモリ使用量をより詳細に分析するには、ルールに組み込みの Memory Profiler を使用することをおすすめします。

永続ワーカーのメモリプロファイリング

永続ワーカーはビルドを大幅に高速化するのに役立ちますが（特にインタプリタ言語）、メモリ使用量が問題になることがあります。Bazel はワーカーに関する指標を収集します。特に、WorkerMetrics.WorkerStats.worker_memory_in_kb フィールドはワーカーによるメモリ使用量を（ニーモニックにより）示します。

JSON トレースプロファイラは、--experimental_collect_system_network_usage フラグ（Bazel 6.0 の新機能）を渡すことで、呼び出し中の永続的なワーカーのメモリ使用量も収集します。

図 2. ワーカーのメモリ使用量を含むプロファイル。

--worker_max_instances の値（デフォルトは 4）を小さくすると、永続ワーカーが使用するメモリ量を削減できる可能性があります。Google では、Bazel のリソースマネージャーとスケジューラの改良に積極的に取り組んでおり、今後、このような微調整が必要になる頻度を減らすことができます。

リモートビルドのネットワークトラフィックのモニタリング

リモート実行では、Bazel は、アクションの実行の結果としてビルドされたアーティファクトをダウンロードします。そのため、ネットワーク帯域幅がビルドのパフォーマンスに影響する可能性があります。

ビルドにリモート実行を使用している場合は、BEP の NetworkMetrics.SystemNetworkStats proto を使用した呼び出し中にネットワークトラフィックのモニタリングを検討できます（--experimental_collect_system_network_usage を渡す必要があります）。

さらに、JSON トレースプロファイルを使用して --experimental_collect_system_network_usage フラグ（Bazel 6.0 の新機能）を渡すと、ビルドの過程でシステム全体のネットワーク使用量を確認できます。

図 3. システム全体のネットワーク使用量を含むプロファイル。

リモート実行の使用時にネットワーク使用量がやや一定である場合は、ネットワークがビルドのボトルネックであることを示している可能性があります。まだ使用していない場合は、--remote_download_minimal を渡してバイトなしのビルドを有効にすることを検討してください。これにより、不要な中間アーティファクトのダウンロードが回避され、ビルドが高速化されます。

また、ローカルのディスクキャッシュを構成してダウンロード帯域幅を節約することもできます。

ビルドのパフォーマンスの内訳

クリーンビルドと増分ビルド

ビルド パフォーマンスの代用となる確定的なビルド指標

ローカル リソースの使用