本页介绍了多路复用工作器、如何编写与多路复用兼容的规则,以及针对某些限制的解决方法。
多路复用工作器可让 Bazel 通过单个工作器进程处理多个请求。对于多线程工作器,Bazel 可以使用更少的资源来实现相同或更好的性能。例如,Bazel 可以让四个多路复用工作器与同一个工作器进程通信,然后并行处理请求,而不是每个工作器都拥有一个工作器进程。对于 Java 和 Scala 等语言,这可以节省 JVM 预热时间和 JIT 编译时间,并且通常允许在同一类型的所有工作器之间使用一个共享缓存。
概览
Bazel 服务器和工作器进程之间有两层。对于某些可以并行运行进程的助记符,Bazel 会从工作器池中获取 WorkerProxy
。WorkerProxy
会将请求连同 request_id
一起按顺序转发给工作器进程,工作器进程会处理请求并将响应发送给 WorkerMultiplexer
。当 WorkerMultiplexer
收到响应时,它会解析 request_id
,然后将响应转发回正确的 WorkerProxy
。与非多路复用工作器一样,所有通信都是通过标准输入/输出完成的,但该工具不能仅使用 stderr
进行用户可见的输出(请参见下文)。
每个 worker 都有一个键。Bazel 使用密钥的哈希代码(由环境变量、执行根目录和助记符组成)来确定要使用哪个 WorkerMultiplexer
。如果 WorkerProxy
具有相同的哈希代码,则它们会与同一 WorkerMultiplexer
进行通信。因此,假设在单个 Bazel 调用中,环境变量和执行根目录相同,则每个唯一助记符只能有一个 WorkerMultiplexer
和一个 worker 进程。工作器的总数(包括常规工作器和 WorkerProxy
)仍受 --worker_max_instances
的限制。
编写与多路复用兼容的规则
规则的工作器进程应为多线程,以便利用多路复用工作器。Protobuf 允许规则集解析单个请求,即使流中可能堆积了多个请求。每当工作器进程解析来自流的请求时,都应在新线程中处理该请求。由于不同的线程可能会同时完成并写入流,因此工作器进程需要确保以原子方式写入响应(消息不重叠)。响应必须包含其处理的请求的 request_id
。
处理多路复用输出
多路复用工作器在处理输出时需要比单路复用工作器更加谨慎。发送到 stderr
的任何内容都会进入在所有同类 WorkerProxy
之间共享的单个日志文件中,并在并发请求之间随机交错。虽然将 stdout
重定向到 stderr
是个好主意,但请勿将该输出收集到 WorkResponse
的 output
字段中,因为这可能会向用户显示损坏的输出片段。如果您的工具仅向 stdout
或 stderr
发送面向用户的输出,则需要先更改该行为,然后才能启用多路复用工作器。
启用多路复用工作器
多路复用工作器默认处于未启用状态。规则集可以通过在操作的 execution_requirements
中使用 supports-multiplex-workers
标记来启用多路复用工作器(就像 supports-workers
标记启用常规工作器一样)。与使用常规工作器时一样,需要指定工作器策略,可以在规则集级别(例如 --strategy=[some_mnemonic]=worker
)或一般策略级别(例如 --dynamic_local_strategy=worker,standalone
)指定。无需使用其他标志,如果同时设置了 supports-multiplex-workers
和 supports-workers
,则 supports-multiplex-workers
优先。您可以通过传递 --noworker_multiplex
来全局关闭多路复用工作器。
建议规则集尽可能使用多路复用工作器,以减少内存压力并提高性能。不过,多路复用工作器目前与动态执行不兼容,除非它们实现多路复用沙盒。尝试运行具有动态执行功能的非沙盒多路复用工作器时,系统会静默地改用沙盒单路复用工作器。
多重广告沙盒
通过在工作器实现中添加对多路复用工作器的显式支持,可以对多路复用工作器进行沙盒处理。虽然可以通过在各自的沙盒中运行每个工作器进程来实现单路工作器沙盒化,但多路工作器会在多个并行请求之间共享进程工作目录。为了允许对多路复用工作器进行沙盒处理,工作器必须支持从每个请求中指定的子目录读取和写入,而不是直接在其工作目录中读取和写入。
为了支持多路复用沙盒,工作器必须使用 WorkRequest
中的 sandbox_dir
字段,并将其用作所有文件读取和写入的前缀。虽然 arguments
和 inputs
字段与未沙盒化的请求相比保持不变,但实际输入是相对于 sandbox_dir
的。工作器必须转换 arguments
和 inputs
中找到的文件路径,以便从修改后的路径读取文件,并且还必须将所有输出写入到相对于 sandbox_dir
的位置。这包括“.”等路径,以及在实参(例如 “argfile”实参)中指定的文件内找到的路径。
如果 worker 支持多路复用沙盒,规则集可以通过向操作的 execution_requirements
添加 supports-multiplex-sandboxing
来声明此支持。如果传递了 --experimental_worker_multiplex_sandboxing
标志,或者工作器与动态执行搭配使用,则 Bazel 将使用多路复用沙盒。
沙盒化多路复用工作器的 worker 文件仍然相对于 worker 进程的工作目录。因此,如果某个文件既用于运行工作器,又用作输入,则必须在标志文件实参中以及在 tools
、executable
或 runfiles
中将其指定为输入。