このページでは、タスクベースのビルドシステムとその仕組み、タスクベースのシステムで起こり得る複雑さについて説明します。シェル スクリプトの次に、タスクベースのビルドシステムがビルドの論理的な進化です。
タスクベースのビルドシステムについて
タスクベースのビルドシステムでは、タスクが基本的な処理単位です。各タスクは任意のロジックを実行できるスクリプトであり、タスクは、それより前に実行する必要がある依存関係として他のタスクを指定します。Ant、Maven、Gradle、Grunt、Rake など、現在使用されているほとんどの主要なビルドシステムはタスクベースです。ほとんどの最新のビルドシステムでは、シェル スクリプトではなく、ビルドを実行する方法を記述するビルドファイルを作成する必要があります。
Ant マニュアルの例を以下に示します。
<project name="MyProject" default="dist" basedir=".">
<description>
simple example build file
</description>
<!-- set global properties for this build -->
<property name="src" location="src"/>
<property name="build" location="build"/>
<property name="dist" location="dist"/>
<target name="init">
<!-- Create the time stamp -->
<tstamp/>
<!-- Create the build directory structure used by compile -->
<mkdir dir="${build}"/>
</target>
<target name="compile" depends="init"
description="compile the source">
<!-- Compile the Java code from ${src} into ${build} -->
<javac srcdir="${src}" destdir="${build}"/>
</target>
<target name="dist" depends="compile"
description="generate the distribution">
<!-- Create the distribution directory -->
<mkdir dir="${dist}/lib"/>
<!-- Put everything in ${build} into the MyProject-${DSTAMP}.jar file -->
<jar jarfile="${dist}/lib/MyProject-${DSTAMP}.jar" basedir="${build}"/>
</target>
<target name="clean"
description="clean up">
<!-- Delete the ${build} and ${dist} directory trees -->
<delete dir="${build}"/>
<delete dir="${dist}"/>
</target>
</project>
buildfile は XML で記述され、タスクのリスト(XML の <target>
タグ)とともに、ビルドに関する簡単なメタデータを定義します。(Ant では、ターゲットはタスクを表し、タスクはコマンドを指します)。各タスクは、Ant で定義された実行可能なコマンドのリストを実行します。ここでは、ディレクトリの作成と削除、javac
の実行、JAR ファイルの作成などがあります。この一連のコマンドは、ユーザー提供のプラグインによって拡張して、あらゆる種類のロジックをカバーできます。各タスクは、depends 属性を使用して、依存するタスクを定義することもできます。図 1 に示すように、これらの依存関係により非巡回グラフが形成されます。
図 1. 依存関係を示す非巡回グラフ
ユーザーは、Ant のコマンドライン ツールにタスクを指定することでビルドを実行します。たとえば、ユーザーが ant dist
と入力すると、Ant は次の手順を実行します。
- 現在のディレクトリに
build.xml
という名前のファイルを読み込み、それを解析して図 1 に示すグラフ構造を作成します。 - コマンドラインで指定された
dist
という名前のタスクを探し、compile
という名前のタスクと依存関係があることを確認します。 compile
という名前のタスクを検索し、init
という名前のタスクに依存していることを確認します。init
という名前のタスクを検索し、依存関係がないことを確認します。init
タスクで定義されているコマンドを実行します。- タスクのすべての依存関係が実行されていることを前提として、
compile
タスクで定義されたコマンドを実行します。 - タスクの依存関係がすべて実行されている場合、
dist
タスクで定義されたコマンドを実行します。
最終的に、dist
タスクの実行時に Ant によって実行されるコードは、次のシェル スクリプトと同等です。
./createTimestamp.sh
mkdir build/
javac src/* -d build/
mkdir -p dist/lib/
jar cf dist/lib/MyProject-$(date --iso-8601).jar build/*
構文を削除すると、ビルドファイルとビルド スクリプトは実際にはほとんど同じです。しかし、この取り組みによってすでに多くの成果が得られています。他のディレクトリに新しいビルドファイルを作成し、それらをリンクさせることができます。既存のタスクに依存する新しいタスクを任意の複雑な方法で簡単に追加できます。ant
コマンドライン ツールに単一のタスクの名前を渡すだけで、実行が必要なすべてのタスクが決定されます。
Ant は 2000 年にリリースされた古いソフトウェアです。Maven や Gradle などの他のツールは、Ant の登場から数年の間に改善され、外部依存関係の自動管理や XML のないクリーンな構文などの機能を追加することで、実質的に Ant に取って代わっています。しかし、こうした新しいシステムの性質は変わりません。エンジニアは、原則的かつモジュール方式の方法でビルド スクリプトをタスクとして記述し、タスクの実行とタスク間の依存関係を管理するためのツールを提供できます。
タスクベースのビルドシステムのダークサイド
これらのツールでは、基本的にエンジニアが任意のスクリプトをタスクとして定義できるため、非常に強力で、想像できるほとんどのことを実行できます。しかし、その機能には欠点があり、ビルド スクリプトが複雑になるにつれ、タスクベースのビルドシステムでの作業が難しくなることがあります。このようなシステムの問題は、エンジニアに過剰な権限を与え、システムに十分な権限を与えない結果になるということです。システムがスクリプトの動作を認識していないため、ビルドステップのスケジュールと実行を慎重に行う必要があるため、パフォーマンスが低下します。また、各スクリプトが意図したとおりに動作していることをシステムが確認する方法がないため、スクリプトは複雑になり、最終的にはデバッグを必要とするものになる傾向があります。
ビルドステップの並列化の難しさ
最新の開発ワークステーションはかなり強力で、複数のコアを使用して複数のビルドステップを並列に実行できます。ただし、タスクベースのシステムでは、タスクの実行を並列化できると思われる場合でも、並列化できないことがよくあります。タスク A がタスク B と C に依存しているとします。タスク B と C は互いに依存関係を持たないため、システムがタスク A に迅速に到達できるように、タスク B と C を同時に実行しても安全ですか?同じリソースにアクセスしない場合は可能です。ただし、両方が同じファイルを使用してステータスを追跡し、同時に実行すると競合が発生する可能性があります。システムがこれを認識する方法は一般的にないため、これらの競合のリスクを負うか(まれではあるがデバッグが非常に難しいビルドの問題につながる)、ビルド全体を単一のプロセス内の単一スレッドで実行するように制限する必要があります。これは、強力なデベロッパー マシンを大幅に浪費する可能性があり、ビルドを複数のマシンに分散する可能性を完全に排除します。
増分ビルドの実行が困難
優れたビルドシステムでは、エンジニアは信頼性の高い増分ビルドを実行できるため、小さな変更でコードベース全体をゼロから再ビルドする必要はありません。これは、ビルドシステムが遅く、前述の理由でビルドステップを並列化できない場合に特に重要です。しかし残念なことに、この段階でもタスクベースのビルドシステムは苦労しています。タスクは何でも実行できるため、一般的に、タスクがすでに完了しているかどうかを確認する方法はありません。多くのタスクは、単純にソースファイルのセットを取得し、コンパイラを実行してバイナリのセットを作成します。そのため、基盤となるソースファイルが変更されていない限り、再実行する必要はありません。しかし、追加情報がないと、システムはこのことをはっきりと判断できません。おそらく、タスクが、変更された可能性のあるファイルをダウンロードするか、実行ごとに異なる可能性があるタイムスタンプを書き込む可能性があります。正確性を確保するために、通常、システムは各ビルドですべてのタスクを再実行する必要があります。一部のビルドシステムでは、タスクを再実行する必要がある条件をエンジニアが指定できるようにすることで、増分ビルドを有効にしようとします。場合によっては可能ですが、多くの場合、問題は見かけよりもはるかに複雑です。たとえば、他のファイルによってファイルを直接含めることができる C++ などの言語では、入力ソースを解析せずに、変更を監視する必要があるファイルのセット全体を特定することはできません。エンジニアは、しばしば近道をとってしまい、その近道が、タスクの結果が再利用されるべきでないときに再利用されるという、まれでイライラする問題につながる可能性があります。これが頻繁に発生すると、エンジニアはビルドのたびにクリーン実行して新しい状態を取得する習慣がつき、そもそも増分ビルドの目的が台無しになります。タスクを再実行する必要があるタイミングを判断するのは、意外に微妙な作業であり、人間よりもマシンが適しています。
スクリプトのメンテナンスとデバッグが困難
最後に、タスクベースのビルドシステムによって適用されるビルド スクリプトは、多くの場合、扱いにくいものです。ビルドスクリプトは、ビルドされるシステムと同じようにコードであるため、バグが隠れやすく、多くの場合、精査が行き届いていません。タスクベースのビルドシステムでよく発生するバグの例を次に示します。
- タスク A は、特定のファイルを出力として生成するためにタスク B に依存します。タスク B のオーナーは、他のタスクがこのタスクに依存していることに気付かず、別の場所に出力を生成するように変更します。これは、タスク A の実行を試みて失敗するまで検出できません。
- タスク A はタスク B に依存し、タスク B はタスク C に依存します。タスク C は、タスク A に必要な出力として特定のファイルを生成します。タスク B のオーナーは、タスク C にこれ以上依存する必要がないと判断します。これにより、タスク B はタスク C にまったく依存していなくても、タスク A は失敗します。
- 新しいタスクのデベロッパーが、タスクを実行するマシンについて、ツールの場所や特定の環境変数の値など、誤って前提条件を設定している。タスクは自分のマシンでは動作するが、別のデベロッパーが試すたびに失敗する。
- タスクには、インターネットからのファイルのダウンロードやビルドへのタイムスタンプの追加など、非決定的コンポーネントが含まれています。現在、ビルドを実行するたびに結果が変わる可能性があります。つまり、エンジニアがお互いの障害や自動ビルドシステムで発生した障害を常に再現して修正できるとは限りません。
- 複数の依存関係を持つタスクは、競合状態を引き起こす可能性があります。タスク A がタスク B とタスク C の両方に依存し、タスク B とタスク C の両方が同じファイルを変更する場合、タスク A は、タスク B とタスク C のどちらが先に完了するかによって異なる結果になります。
ここで説明するタスクベースのフレームワークでは、パフォーマンス、正確性、メンテナンス性に関する問題を解決するための汎用的な方法はありません。エンジニアがビルド中に任意のコードを記述できる限り、ビルドを迅速かつ正確に実行するための十分な情報がシステムにあるとは限りません。この問題を解決するには、エンジニアの負担を軽減し、システムに負担を移行し、システムの役割をタスクの実行ではなくアーティファクトの生成として再定義する必要があります。
このアプローチは、Blaze や Bazel などのアーティファクト ベースのビルドシステムの作成につながりました。