¡Build Foundation comenzó a inscribir a los miembros fundadores! Únete a la lista de distribución, lee el acuerdo de participación y regístrate.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Desafíos de la redacción de reglas

Informar un problema Ver código fuente

Nightly · 9.1 · 9.0 · 8.7 · 8.6 · 8.5 · 8.4 · 8.3 · 8.2 · 8.1

En esta página, se proporciona una descripción general de alto nivel de los problemas y desafíos específicos de la escritura de reglas de Bazel eficientes.

Requisitos de resumen

Suposición: El objetivo es la exactitud, la capacidad de procesamiento, la facilidad de uso y la latencia.
Suposición: Repositorios a gran escala
Suposición: Lenguaje de descripción similar a BUILD
Histórico: La separación estricta entre la carga, el análisis y la ejecución está desactualizada, pero aún afecta la API.
Intrínseco: La ejecución y el almacenamiento en caché remotos son difíciles.
Intrínseco: El uso de información de cambios para compilaciones incrementales correctas y rápidas requiere patrones de codificación inusuales.
Intrínseco: Evitar el tiempo cuadrático y el consumo de memoria es difícil.

Suposiciones

Estas son algunas suposiciones sobre el sistema de compilación, como la necesidad de exactitud, facilidad de uso, capacidad de procesamiento y repositorios a gran escala. En las siguientes secciones, se abordan estas suposiciones y se ofrecen lineamientos para garantizar que las reglas se escriban de manera eficaz.

El objetivo es la exactitud, la capacidad de procesamiento, la facilidad de uso y la latencia.

Suponemos que el sistema de compilación debe ser, en primer lugar, correcto con respecto a las compilaciones incrementales. Para un árbol fuente determinado, el resultado de la misma compilación siempre debe ser el mismo, independientemente de cómo se vea el árbol de salida. En la primera aproximación, esto significa que Bazel debe conocer cada entrada que se incluye en un paso de compilación determinado, de modo que pueda volver a ejecutar ese paso si cambia alguna de las entradas. Existen límites en la exactitud que puede alcanzar Bazel, ya que filtra información como la fecha y la hora de la compilación, y omite ciertos tipos de cambios, como los cambios en los atributos de los archivos. El aislamiento ayuda a garantizar la exactitud, ya que evita las lecturas de archivos de entrada no declarados. Además de los límites intrínsecos del sistema, existen algunos problemas de exactitud conocidos, la mayoría de los cuales están relacionados con Fileset o las reglas de C++, que son problemas difíciles. Tenemos esfuerzos a largo plazo para solucionar estos problemas.

El segundo objetivo del sistema de compilación es tener una alta capacidad de procesamiento. Estamos ampliando permanentemente los límites de lo que se puede hacer dentro de la asignación de máquinas actual para un servicio de ejecución remota. Si el servicio de ejecución remota se sobrecarga, nadie puede trabajar.

La facilidad de uso es lo siguiente. De varios enfoques correctos con la misma (o similar) huella del servicio de ejecución remota, elegimos el que es más fácil de usar.

La latencia denota el tiempo que transcurre desde que se inicia una compilación hasta que se obtiene el resultado deseado, ya sea un registro de prueba de una prueba aprobada o fallida, o un mensaje de error que indica que un archivo BUILD tiene un error tipográfico.

Ten en cuenta que estos objetivos suelen superponerse. La latencia es una función de la capacidad de procesamiento del servicio de ejecución remota, al igual que la exactitud es relevante para la facilidad de uso.

Repositorios a gran escala

El sistema de compilación debe operar a la escala de repositorios grandes, donde la gran escala significa que no cabe en un solo disco duro, por lo que es imposible realizar una confirmación completa en casi todas las máquinas de desarrolladores. Una compilación de tamaño mediano deberá leer y analizar decenas de miles de archivos BUILD, y evaluar cientos de miles de globs. Si bien es teóricamente posible leer todos los archivos BUILD en una sola máquina, aún no pudimos hacerlo en un período de tiempo y memoria razonables. Por lo tanto, es fundamental que los archivos BUILD se puedan cargar y analizar de forma independiente.

Lenguaje de descripción similar a BUILD

En este contexto, suponemos un lenguaje de configuración que es aproximadamente similar a los archivos BUILD en la declaración de reglas de biblioteca y de objeto binario, y sus interdependencias. Los archivos BUILD se pueden leer y analizar de forma independiente, y evitamos incluso mirar los archivos fuente siempre que podamos (excepto por la existencia).

Lugar histórico

Existen diferencias entre las versiones de Bazel que causan desafíos, y algunas de ellas se describen en las siguientes secciones.

La separación estricta entre la carga, el análisis y la ejecución está desactualizada, pero aún afecta la API.

Técnicamente, es suficiente que una regla conozca los archivos de entrada y salida de una acción justo antes de que se envíe a la ejecución remota. Sin embargo, la base de código original de Bazel tenía una separación estricta de los paquetes de carga, luego analizaba las reglas con una configuración (principalmente, marcas de línea de comandos) y, solo entonces, ejecutaba cualquier acción. Esta distinción sigue siendo parte de la API de reglas hoy en día, aunque el núcleo de Bazel ya no la requiere (más detalles a continuación).

Eso significa que la API de reglas requiere una descripción declarativa de la interfaz de reglas (qué atributos tiene, tipos de atributos). Existen algunas excepciones en las que la API permite que se ejecute código personalizado durante la fase de carga para calcular nombres implícitos de archivos de salida y valores implícitos de atributos. Por ejemplo, una regla java_library llamada “foo” genera implícitamente una salida llamada “libfoo.jar”, a la que se puede hacer referencia desde otras reglas en el gráfico de compilación.

Además, el análisis de una regla no puede leer ningún archivo fuente ni inspeccionar el resultado de una acción. En su lugar, debe generar un gráfico bipartito dirigido parcial de los pasos de compilación y los nombres de los archivos de salida que solo se determinan a partir de la regla en sí y sus dependencias.

Intrínseco

Existen algunas propiedades intrínsecas que hacen que la escritura de reglas sea un desafío, y algunas de las más comunes se describen en las siguientes secciones.

La ejecución y el almacenamiento en caché remotos son difíciles.

La ejecución y el almacenamiento en caché remotos mejoran los tiempos de compilación en repositorios grandes en aproximadamente dos órdenes de magnitud en comparación con la ejecución de la compilación en una sola máquina. Sin embargo, la escala en la que debe realizarse es asombrosa: el servicio de ejecución remota de Google está diseñado para controlar una gran cantidad de solicitudes por segundo, y el protocolo evita cuidadosamente los viajes de ida y vuelta innecesarios, así como el trabajo innecesario en el servidor.

En este momento, el protocolo requiere que el sistema de compilación conozca todas las entradas de una acción determinada con anticipación. Luego, el sistema de compilación calcula una huella digital de acción única y le solicita al programador un acierto de caché. Si se encuentra un acierto de caché, el planificador responde con los resúmenes de los archivos de salida. Los archivos se abordan más adelante por resumen. Sin embargo, esto impone restricciones en las reglas de Bazel, que deben declarar todos los archivos de entrada con anticipación.

El uso de información de cambios para compilaciones incrementales correctas y rápidas requiere patrones de codificación inusuales.

Anteriormente, argumentamos que, para ser correcto, Bazel debe conocer todos los archivos de entrada que se incluyen en un paso de compilación para detectar si ese paso de compilación aún está actualizado. Lo mismo sucede con la carga de paquetes y el análisis de reglas, y nosotros diseñamos Skyframe para controlar esto en general. Skyframe es una biblioteca de gráficos y un framework de evaluación que toma un nodo de objetivo (como “compilar //foo con estas opciones”) y lo divide en sus partes constituyentes, que luego se evalúan y combinan para producir este resultado. Como parte de este proceso, Skyframe lee paquetes, analiza reglas y ejecuta acciones.

En cada nodo, Skyframe realiza un seguimiento exacto de los nodos que usó un nodo determinado para calcular su propia salida, desde el nodo de objetivo hasta los archivos de entrada (que también son nodos de Skyframe). Tener este gráfico representado explícitamente en la memoria permite que el sistema de compilación identifique exactamente qué nodos se ven afectados por un cambio determinado en un archivo de entrada (incluida la creación o eliminación de un archivo de entrada), lo que hace la cantidad mínima de trabajo para restablecer el árbol de salida a su estado deseado.

Como parte de esto, cada nodo realiza un proceso de descubrimiento de dependencias. Cada nodo puede declarar dependencias y, luego, usar el contenido de esas dependencias para declarar dependencias aún más. En principio, esto se asigna bien a un modelo de subproceso por nodo. Sin embargo, las compilaciones de tamaño mediano contienen cientos de miles de nodos de Skyframe, lo que no es posible fácilmente con la tecnología Java actual (y, por motivos históricos, actualmente estamos vinculados al uso de Java, por lo que no hay subprocesos livianos ni continuaciones).

En su lugar, Bazel usa un grupo de subprocesos de tamaño fijo. Sin embargo, eso significa que, si un nodo declara una dependencia que aún no está disponible, es posible que debamos anular esa evaluación y reiniciarla (posiblemente en otro subproceso) cuando la dependencia esté disponible. Esto, a su vez, significa que los nodos no deben hacer esto en exceso. Un nodo que declara dependencias N en serie puede reiniciarse N veces, lo que cuesta un tiempo O(N^2). En su lugar, nuestro objetivo es la declaración masiva inicial de dependencias, lo que a veces requiere reorganizar el código o incluso dividir un nodo en varios nodos para limitar la cantidad de reinicios.

Ten en cuenta que esta tecnología no está disponible actualmente en la API de reglas. En su lugar, la API de reglas aún se define con los conceptos heredados de las fases de carga, análisis y ejecución. Sin embargo, una restricción fundamental es que todos los accesos a otros nodos deben pasar por el framework para que pueda realizar un seguimiento de las dependencias correspondientes. Independientemente del lenguaje en el que se implemente el sistema de compilación o en el que se escriban las reglas (no tienen que ser iguales), los autores de reglas no deben usar bibliotecas ni patrones estándar que omitan Skyframe. Para Java, eso significa evitar java.io.File, así como cualquier forma de reflexión y cualquier biblioteca que haga cualquiera de las dos cosas. Las bibliotecas que admiten la inyección de dependencias de estas interfaces de bajo nivel aún deben configurarse correctamente para Skyframe.

Esto sugiere firmemente que se evite exponer a los autores de reglas a un entorno de ejecución de lenguaje completo en primer lugar. El peligro de usar accidentalmente esas APIs es demasiado grande. Varios errores de Bazel en el pasado fueron causados por reglas que usaban APIs no seguras, aunque las reglas fueron escritas por el equipo de Bazel o por otros expertos en el dominio.

Evitar el tiempo cuadrático y el consumo de memoria es difícil.

Para empeorar las cosas, además de los requisitos impuestos por Skyframe, las restricciones históricas del uso de Java y la obsolescencia de la API de reglas, la introducción accidental de tiempo cuadrático o consumo de memoria es un problema fundamental en cualquier sistema de compilación basado en reglas de biblioteca y binarias. Existen dos patrones muy comunes que introducen el consumo de memoria cuadrático (y, por lo tanto, el consumo de tiempo cuadrático).

Cadenas de reglas de biblioteca: Considera el caso de una cadena de reglas de biblioteca A depende de B, depende de C, y así sucesivamente. Luego, queremos calcular alguna propiedad sobre el cierre transitivo de estas reglas, como la ruta de acceso de tiempo de ejecución de Java o el comando del vinculador de C++ para cada biblioteca. De forma ingenua, podríamos tomar una implementación de lista estándar. Sin embargo, esto ya introduce el consumo de memoria cuadrático: la primera biblioteca contiene una entrada en la ruta de acceso, la segunda dos, la tercera tres, y así sucesivamente, para un total de 1+2+3+...+N = O(N^2) entradas.
Reglas binarias que dependen de las mismas reglas de biblioteca: Considera el caso en el que un conjunto de archivos binarios que dependen de las mismas reglas de biblioteca, por ejemplo, si tienes una cantidad de reglas de prueba que prueban el mismo código de biblioteca. Supongamos que, de las reglas N, la mitad son reglas binarias y la otra mitad son reglas de biblioteca. Ahora, considera que cada archivo binario hace una copia de alguna propiedad calculada sobre el cierre transitivo de las reglas de biblioteca, como la ruta de acceso de tiempo de ejecución de Java o la línea de comandos del vinculador de C++. Por ejemplo, podría expandir la representación de cadena de línea de comandos de la acción de vínculo de C++. Las copias N/2 de los elementos N/2 son memoria O(N^2).

Clases de colecciones personalizadas para evitar la complejidad cuadrática

Bazel se ve muy afectado por estas dos situaciones, por lo que introdujimos un conjunto de clases de colección personalizadas que comprimen de manera eficaz la información en la memoria, ya que evitan la copia en cada paso. Casi todas estas estructuras de datos tienen semántica establecida, por lo que la llamamos depset (también conocida como NestedSet en la implementación interna). La mayoría de los cambios para reducir el consumo de memoria de Bazel en los últimos años fueron cambios para usar depsets en lugar de lo que se usaba anteriormente.

Lamentablemente, el uso de depsets no resuelve automáticamente todos los problemas. En particular, incluso solo iterar sobre un depset en cada regla vuelve a introducir el consumo de tiempo cuadrático. Internamente, NestedSets también tiene algunos métodos auxiliares para facilitar la interoperabilidad con las clases de colecciones normales. Lamentablemente, pasar accidentalmente un NestedSet a uno de estos métodos genera un comportamiento de copia y vuelve a introducir el consumo de memoria cuadrático.

Desafíos de la redacción de reglas Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.